From 319436dd14c375aebc10522b5f1fba82748e0cc1 Mon Sep 17 00:00:00 2001
From: Megvii Engine Team <megengine@megvii.com>
Date: Mon, 17 May 2021 19:42:43 +0800
Subject: [PATCH] feat(dnn/cuda): add cutlass impls for uint4 x int4 conv bias

GitOrigin-RevId: cf4536855ac3faf5a929b1077dac91092b2f008f
---
 dnn/src/cuda/conv_bias/algo.cpp                    |  16 +-
 dnn/src/cuda/conv_bias/algo.h                      |  51 +++++
 .../cuda/conv_bias/cutlass_convolution_wrapper.cu  | 130 ++++++++++-
 .../cuda/conv_bias/cutlass_convolution_wrapper.cuh |  11 +-
 .../implicit_gemm_int4_int4_nchw64_imma.cpp        |   3 +-
 .../implicit_gemm_uint4_int4_nchw64_imma.cpp       | 253 +++++++++++++++++++++
 ...v_bias_int4_implicit_gemm_cutlass_wrapper.cuinl |  66 +++++-
 ...mma_ncdiv64hw64_128x128x128_64x64x128_hswish.cu |   2 +-
 ...mm_imma_ncdiv64hw64_128x128x128_64x64x128_id.cu |   2 +-
 ..._imma_ncdiv64hw64_128x128x128_64x64x128_relu.cu |   2 +-
 ...mma_ncdiv64hw64_256x128x128_64x64x128_hswish.cu |   2 +-
 ...mm_imma_ncdiv64hw64_256x128x128_64x64x128_id.cu |   2 +-
 ..._imma_ncdiv64hw64_256x128x128_64x64x128_relu.cu |   2 +-
 ...mma_ncdiv64hw64_128x128x128_64x64x128_hswish.cu |  36 +++
 ...mm_imma_ncdiv64hw64_128x128x128_64x64x128_id.cu |  36 +++
 ..._imma_ncdiv64hw64_128x128x128_64x64x128_relu.cu |  36 +++
 ...mma_ncdiv64hw64_256x128x128_64x64x128_hswish.cu |  36 +++
 ...mm_imma_ncdiv64hw64_256x128x128_64x64x128_id.cu |  36 +++
 ..._imma_ncdiv64hw64_256x128x128_64x64x128_relu.cu |  36 +++
 ...v_bias_int8_implicit_gemm_cutlass_wrapper.cuinl |   7 +-
 ...mm_dp4a_ncdiv4hw4_128x128x32_64x32x32_hswish.cu |   4 +-
 ...t_gemm_dp4a_ncdiv4hw4_128x128x32_64x32x32_id.cu |   4 +-
 ...gemm_dp4a_ncdiv4hw4_128x128x32_64x32x32_relu.cu |   4 +-
 ...emm_dp4a_ncdiv4hw4_128x32x32_64x32x32_hswish.cu |   4 +-
 ...it_gemm_dp4a_ncdiv4hw4_128x32x32_64x32x32_id.cu |   4 +-
 ..._gemm_dp4a_ncdiv4hw4_128x32x32_64x32x32_relu.cu |   4 +-
 ...emm_dp4a_ncdiv4hw4_128x64x32_64x32x32_hswish.cu |   4 +-
 ...it_gemm_dp4a_ncdiv4hw4_128x64x32_64x32x32_id.cu |   4 +-
 ..._gemm_dp4a_ncdiv4hw4_128x64x32_64x32x32_relu.cu |   4 +-
 ...mm_dp4a_ncdiv4hw4_16x128x16_16x128x16_hswish.cu |   4 +-
 ...t_gemm_dp4a_ncdiv4hw4_16x128x16_16x128x16_id.cu |   4 +-
 ...gemm_dp4a_ncdiv4hw4_16x128x16_16x128x16_relu.cu |   4 +-
 ...t_gemm_dp4a_ncdiv4hw4_16x64x8_16x64x8_hswish.cu |   4 +-
 ...licit_gemm_dp4a_ncdiv4hw4_16x64x8_16x64x8_id.cu |   4 +-
 ...cit_gemm_dp4a_ncdiv4hw4_16x64x8_16x64x8_relu.cu |   4 +-
 ...p4a_ncdiv4hw4_1x1_128x128x32_64x32x32_hswish.cu |   4 +-
 ...mm_dp4a_ncdiv4hw4_1x1_128x128x32_64x32x32_id.cu |   4 +-
 ..._dp4a_ncdiv4hw4_1x1_128x128x32_64x32x32_relu.cu |   4 +-
 ...dp4a_ncdiv4hw4_1x1_128x32x32_64x32x32_hswish.cu |   4 +-
 ...emm_dp4a_ncdiv4hw4_1x1_128x32x32_64x32x32_id.cu |   4 +-
 ...m_dp4a_ncdiv4hw4_1x1_128x32x32_64x32x32_relu.cu |   4 +-
 ...dp4a_ncdiv4hw4_1x1_128x64x32_64x32x32_hswish.cu |   4 +-
 ...emm_dp4a_ncdiv4hw4_1x1_128x64x32_64x32x32_id.cu |   4 +-
 ...m_dp4a_ncdiv4hw4_1x1_128x64x32_64x32x32_relu.cu |   4 +-
 ...p4a_ncdiv4hw4_1x1_16x128x16_16x128x16_hswish.cu |   4 +-
 ...mm_dp4a_ncdiv4hw4_1x1_16x128x16_16x128x16_id.cu |   4 +-
 ..._dp4a_ncdiv4hw4_1x1_16x128x16_16x128x16_relu.cu |   4 +-
 ...mm_dp4a_ncdiv4hw4_1x1_16x64x8_16x64x8_hswish.cu |   4 +-
 ...t_gemm_dp4a_ncdiv4hw4_1x1_16x64x8_16x64x8_id.cu |   4 +-
 ...gemm_dp4a_ncdiv4hw4_1x1_16x64x8_16x64x8_relu.cu |   4 +-
 ...dp4a_ncdiv4hw4_1x1_32x128x32_32x64x32_hswish.cu |   4 +-
 ...emm_dp4a_ncdiv4hw4_1x1_32x128x32_32x64x32_id.cu |   4 +-
 ...m_dp4a_ncdiv4hw4_1x1_32x128x32_32x64x32_relu.cu |   4 +-
 ..._dp4a_ncdiv4hw4_1x1_32x32x32_32x32x32_hswish.cu |   4 +-
 ...gemm_dp4a_ncdiv4hw4_1x1_32x32x32_32x32x32_id.cu |   4 +-
 ...mm_dp4a_ncdiv4hw4_1x1_32x32x32_32x32x32_relu.cu |   4 +-
 ..._dp4a_ncdiv4hw4_1x1_32x64x32_32x64x32_hswish.cu |   4 +-
 ...gemm_dp4a_ncdiv4hw4_1x1_32x64x32_32x64x32_id.cu |   4 +-
 ...mm_dp4a_ncdiv4hw4_1x1_32x64x32_32x64x32_relu.cu |   4 +-
 ...dp4a_ncdiv4hw4_1x1_64x128x32_64x32x32_hswish.cu |   4 +-
 ...emm_dp4a_ncdiv4hw4_1x1_64x128x32_64x32x32_id.cu |   4 +-
 ...m_dp4a_ncdiv4hw4_1x1_64x128x32_64x32x32_relu.cu |   4 +-
 ..._dp4a_ncdiv4hw4_1x1_64x32x32_64x32x32_hswish.cu |   4 +-
 ...gemm_dp4a_ncdiv4hw4_1x1_64x32x32_64x32x32_id.cu |   4 +-
 ...mm_dp4a_ncdiv4hw4_1x1_64x32x32_64x32x32_relu.cu |   4 +-
 ..._dp4a_ncdiv4hw4_1x1_64x64x32_64x32x32_hswish.cu |   4 +-
 ...gemm_dp4a_ncdiv4hw4_1x1_64x64x32_64x32x32_id.cu |   4 +-
 ...mm_dp4a_ncdiv4hw4_1x1_64x64x32_64x32x32_relu.cu |   4 +-
 ...emm_dp4a_ncdiv4hw4_32x128x32_32x64x32_hswish.cu |   4 +-
 ...it_gemm_dp4a_ncdiv4hw4_32x128x32_32x64x32_id.cu |   4 +-
 ..._gemm_dp4a_ncdiv4hw4_32x128x32_32x64x32_relu.cu |   4 +-
 ...gemm_dp4a_ncdiv4hw4_32x32x32_32x32x32_hswish.cu |   4 +-
 ...cit_gemm_dp4a_ncdiv4hw4_32x32x32_32x32x32_id.cu |   4 +-
 ...t_gemm_dp4a_ncdiv4hw4_32x32x32_32x32x32_relu.cu |   4 +-
 ...gemm_dp4a_ncdiv4hw4_32x64x32_32x64x32_hswish.cu |   4 +-
 ...cit_gemm_dp4a_ncdiv4hw4_32x64x32_32x64x32_id.cu |   4 +-
 ...t_gemm_dp4a_ncdiv4hw4_32x64x32_32x64x32_relu.cu |   4 +-
 ...emm_dp4a_ncdiv4hw4_64x128x32_64x32x32_hswish.cu |   4 +-
 ...it_gemm_dp4a_ncdiv4hw4_64x128x32_64x32x32_id.cu |   4 +-
 ..._gemm_dp4a_ncdiv4hw4_64x128x32_64x32x32_relu.cu |   4 +-
 ...gemm_dp4a_ncdiv4hw4_64x32x32_64x32x32_hswish.cu |   4 +-
 ...cit_gemm_dp4a_ncdiv4hw4_64x32x32_64x32x32_id.cu |   4 +-
 ...t_gemm_dp4a_ncdiv4hw4_64x32x32_64x32x32_relu.cu |   4 +-
 ...gemm_dp4a_ncdiv4hw4_64x64x32_64x32x32_hswish.cu |   4 +-
 ...cit_gemm_dp4a_ncdiv4hw4_64x64x32_64x32x32_id.cu |   4 +-
 ...t_gemm_dp4a_ncdiv4hw4_64x64x32_64x32x32_relu.cu |   4 +-
 ...v4hw4_ncdiv32hw32_128x128x32_64x32x32_hswish.cu |   4 +-
 ...ncdiv4hw4_ncdiv32hw32_128x128x32_64x32x32_id.cu |   4 +-
 ...div4hw4_ncdiv32hw32_128x128x32_64x32x32_relu.cu |   4 +-
 ...iv4hw4_ncdiv32hw32_128x32x32_64x32x32_hswish.cu |   4 +-
 ..._ncdiv4hw4_ncdiv32hw32_128x32x32_64x32x32_id.cu |   4 +-
 ...cdiv4hw4_ncdiv32hw32_128x32x32_64x32x32_relu.cu |   4 +-
 ...iv4hw4_ncdiv32hw32_128x64x32_64x32x32_hswish.cu |   4 +-
 ..._ncdiv4hw4_ncdiv32hw32_128x64x32_64x32x32_id.cu |   4 +-
 ...cdiv4hw4_ncdiv32hw32_128x64x32_64x32x32_relu.cu |   4 +-
 ...4_ncdiv32hw32_1x1_128x128x32_64x32x32_hswish.cu |   4 +-
 ...v4hw4_ncdiv32hw32_1x1_128x128x32_64x32x32_id.cu |   4 +-
 ...hw4_ncdiv32hw32_1x1_128x128x32_64x32x32_relu.cu |   4 +-
 ...w4_ncdiv32hw32_1x1_128x32x32_64x32x32_hswish.cu |   4 +-
 ...iv4hw4_ncdiv32hw32_1x1_128x32x32_64x32x32_id.cu |   4 +-
 ...4hw4_ncdiv32hw32_1x1_128x32x32_64x32x32_relu.cu |   4 +-
 ...w4_ncdiv32hw32_1x1_128x64x32_64x32x32_hswish.cu |   4 +-
 ...iv4hw4_ncdiv32hw32_1x1_128x64x32_64x32x32_id.cu |   4 +-
 ...4hw4_ncdiv32hw32_1x1_128x64x32_64x32x32_relu.cu |   4 +-
 ...w4_ncdiv32hw32_1x1_32x128x32_32x64x32_hswish.cu |   4 +-
 ...iv4hw4_ncdiv32hw32_1x1_32x128x32_32x64x32_id.cu |   4 +-
 ...4hw4_ncdiv32hw32_1x1_32x128x32_32x64x32_relu.cu |   4 +-
 ...hw4_ncdiv32hw32_1x1_32x32x32_32x32x32_hswish.cu |   4 +-
 ...div4hw4_ncdiv32hw32_1x1_32x32x32_32x32x32_id.cu |   4 +-
 ...v4hw4_ncdiv32hw32_1x1_32x32x32_32x32x32_relu.cu |   4 +-
 ...hw4_ncdiv32hw32_1x1_32x64x32_32x64x32_hswish.cu |   4 +-
 ...div4hw4_ncdiv32hw32_1x1_32x64x32_32x64x32_id.cu |   4 +-
 ...v4hw4_ncdiv32hw32_1x1_32x64x32_32x64x32_relu.cu |   4 +-
 ...w4_ncdiv32hw32_1x1_64x128x32_64x32x32_hswish.cu |   4 +-
 ...iv4hw4_ncdiv32hw32_1x1_64x128x32_64x32x32_id.cu |   4 +-
 ...4hw4_ncdiv32hw32_1x1_64x128x32_64x32x32_relu.cu |   4 +-
 ...hw4_ncdiv32hw32_1x1_64x32x32_64x32x32_hswish.cu |   4 +-
 ...div4hw4_ncdiv32hw32_1x1_64x32x32_64x32x32_id.cu |   4 +-
 ...v4hw4_ncdiv32hw32_1x1_64x32x32_64x32x32_relu.cu |   4 +-
 ...hw4_ncdiv32hw32_1x1_64x64x32_64x32x32_hswish.cu |   4 +-
 ...div4hw4_ncdiv32hw32_1x1_64x64x32_64x32x32_id.cu |   4 +-
 ...v4hw4_ncdiv32hw32_1x1_64x64x32_64x32x32_relu.cu |   4 +-
 ...iv4hw4_ncdiv32hw32_32x128x32_32x64x32_hswish.cu |   4 +-
 ..._ncdiv4hw4_ncdiv32hw32_32x128x32_32x64x32_id.cu |   4 +-
 ...cdiv4hw4_ncdiv32hw32_32x128x32_32x64x32_relu.cu |   4 +-
 ...div4hw4_ncdiv32hw32_32x32x32_32x32x32_hswish.cu |   4 +-
 ...a_ncdiv4hw4_ncdiv32hw32_32x32x32_32x32x32_id.cu |   4 +-
 ...ncdiv4hw4_ncdiv32hw32_32x32x32_32x32x32_relu.cu |   4 +-
 ...div4hw4_ncdiv32hw32_32x64x32_32x64x32_hswish.cu |   4 +-
 ...a_ncdiv4hw4_ncdiv32hw32_32x64x32_32x64x32_id.cu |   4 +-
 ...ncdiv4hw4_ncdiv32hw32_32x64x32_32x64x32_relu.cu |   4 +-
 ...iv4hw4_ncdiv32hw32_64x128x32_64x32x32_hswish.cu |   4 +-
 ..._ncdiv4hw4_ncdiv32hw32_64x128x32_64x32x32_id.cu |   4 +-
 ...cdiv4hw4_ncdiv32hw32_64x128x32_64x32x32_relu.cu |   4 +-
 ...div4hw4_ncdiv32hw32_64x32x32_64x32x32_hswish.cu |   4 +-
 ...a_ncdiv4hw4_ncdiv32hw32_64x32x32_64x32x32_id.cu |   4 +-
 ...ncdiv4hw4_ncdiv32hw32_64x32x32_64x32x32_relu.cu |   4 +-
 ...div4hw4_ncdiv32hw32_64x64x32_64x32x32_hswish.cu |   4 +-
 ...a_ncdiv4hw4_ncdiv32hw32_64x64x32_64x32x32_id.cu |   4 +-
 ...ncdiv4hw4_ncdiv32hw32_64x64x32_64x32x32_relu.cu |   4 +-
 ...4a_ncdiv4hw4_nchw_128x128x32_64x32x32_hswish.cu |   4 +-
 ...m_dp4a_ncdiv4hw4_nchw_128x128x32_64x32x32_id.cu |   4 +-
 ...dp4a_ncdiv4hw4_nchw_128x128x32_64x32x32_relu.cu |   4 +-
 ...p4a_ncdiv4hw4_nchw_128x32x32_64x32x32_hswish.cu |   4 +-
 ...mm_dp4a_ncdiv4hw4_nchw_128x32x32_64x32x32_id.cu |   4 +-
 ..._dp4a_ncdiv4hw4_nchw_128x32x32_64x32x32_relu.cu |   4 +-
 ...p4a_ncdiv4hw4_nchw_128x64x32_64x32x32_hswish.cu |   4 +-
 ...mm_dp4a_ncdiv4hw4_nchw_128x64x32_64x32x32_id.cu |   4 +-
 ..._dp4a_ncdiv4hw4_nchw_128x64x32_64x32x32_relu.cu |   4 +-
 ...4a_ncdiv4hw4_nchw_16x128x16_16x128x16_hswish.cu |   4 +-
 ...m_dp4a_ncdiv4hw4_nchw_16x128x16_16x128x16_id.cu |   4 +-
 ...dp4a_ncdiv4hw4_nchw_16x128x16_16x128x16_relu.cu |   4 +-
 ...m_dp4a_ncdiv4hw4_nchw_16x64x8_16x64x8_hswish.cu |   4 +-
 ..._gemm_dp4a_ncdiv4hw4_nchw_16x64x8_16x64x8_id.cu |   4 +-
 ...emm_dp4a_ncdiv4hw4_nchw_16x64x8_16x64x8_relu.cu |   4 +-
 ...cdiv4hw4_nchw_1x1_128x128x32_64x32x32_hswish.cu |   4 +-
 ...4a_ncdiv4hw4_nchw_1x1_128x128x32_64x32x32_id.cu |   4 +-
 ..._ncdiv4hw4_nchw_1x1_128x128x32_64x32x32_relu.cu |   4 +-
 ...ncdiv4hw4_nchw_1x1_128x32x32_64x32x32_hswish.cu |   4 +-
 ...p4a_ncdiv4hw4_nchw_1x1_128x32x32_64x32x32_id.cu |   4 +-
 ...a_ncdiv4hw4_nchw_1x1_128x32x32_64x32x32_relu.cu |   4 +-
 ...ncdiv4hw4_nchw_1x1_128x64x32_64x32x32_hswish.cu |   4 +-
 ...p4a_ncdiv4hw4_nchw_1x1_128x64x32_64x32x32_id.cu |   4 +-
 ...a_ncdiv4hw4_nchw_1x1_128x64x32_64x32x32_relu.cu |   4 +-
 ...cdiv4hw4_nchw_1x1_16x128x16_16x128x16_hswish.cu |   4 +-
 ...4a_ncdiv4hw4_nchw_1x1_16x128x16_16x128x16_id.cu |   4 +-
 ..._ncdiv4hw4_nchw_1x1_16x128x16_16x128x16_relu.cu |   4 +-
 ...4a_ncdiv4hw4_nchw_1x1_16x64x8_16x64x8_hswish.cu |   4 +-
 ...m_dp4a_ncdiv4hw4_nchw_1x1_16x64x8_16x64x8_id.cu |   4 +-
 ...dp4a_ncdiv4hw4_nchw_1x1_16x64x8_16x64x8_relu.cu |   4 +-
 ...ncdiv4hw4_nchw_1x1_32x128x32_32x64x32_hswish.cu |   4 +-
 ...p4a_ncdiv4hw4_nchw_1x1_32x128x32_32x64x32_id.cu |   4 +-
 ...a_ncdiv4hw4_nchw_1x1_32x128x32_32x64x32_relu.cu |   4 +-
 ..._ncdiv4hw4_nchw_1x1_32x32x32_32x32x32_hswish.cu |   4 +-
 ...dp4a_ncdiv4hw4_nchw_1x1_32x32x32_32x32x32_id.cu |   4 +-
 ...4a_ncdiv4hw4_nchw_1x1_32x32x32_32x32x32_relu.cu |   4 +-
 ..._ncdiv4hw4_nchw_1x1_32x64x32_32x64x32_hswish.cu |   4 +-
 ...dp4a_ncdiv4hw4_nchw_1x1_32x64x32_32x64x32_id.cu |   4 +-
 ...4a_ncdiv4hw4_nchw_1x1_32x64x32_32x64x32_relu.cu |   4 +-
 ...ncdiv4hw4_nchw_1x1_64x128x32_64x32x32_hswish.cu |   4 +-
 ...p4a_ncdiv4hw4_nchw_1x1_64x128x32_64x32x32_id.cu |   4 +-
 ...a_ncdiv4hw4_nchw_1x1_64x128x32_64x32x32_relu.cu |   4 +-
 ..._ncdiv4hw4_nchw_1x1_64x32x32_64x32x32_hswish.cu |   4 +-
 ...dp4a_ncdiv4hw4_nchw_1x1_64x32x32_64x32x32_id.cu |   4 +-
 ...4a_ncdiv4hw4_nchw_1x1_64x32x32_64x32x32_relu.cu |   4 +-
 ..._ncdiv4hw4_nchw_1x1_64x64x32_64x32x32_hswish.cu |   4 +-
 ...dp4a_ncdiv4hw4_nchw_1x1_64x64x32_64x32x32_id.cu |   4 +-
 ...4a_ncdiv4hw4_nchw_1x1_64x64x32_64x32x32_relu.cu |   4 +-
 ...p4a_ncdiv4hw4_nchw_32x128x32_32x64x32_hswish.cu |   4 +-
 ...mm_dp4a_ncdiv4hw4_nchw_32x128x32_32x64x32_id.cu |   4 +-
 ..._dp4a_ncdiv4hw4_nchw_32x128x32_32x64x32_relu.cu |   4 +-
 ...dp4a_ncdiv4hw4_nchw_32x32x32_32x32x32_hswish.cu |   4 +-
 ...emm_dp4a_ncdiv4hw4_nchw_32x32x32_32x32x32_id.cu |   4 +-
 ...m_dp4a_ncdiv4hw4_nchw_32x32x32_32x32x32_relu.cu |   4 +-
 ...dp4a_ncdiv4hw4_nchw_32x64x32_32x64x32_hswish.cu |   4 +-
 ...emm_dp4a_ncdiv4hw4_nchw_32x64x32_32x64x32_id.cu |   4 +-
 ...m_dp4a_ncdiv4hw4_nchw_32x64x32_32x64x32_relu.cu |   4 +-
 ...p4a_ncdiv4hw4_nchw_64x128x32_64x32x32_hswish.cu |   4 +-
 ...mm_dp4a_ncdiv4hw4_nchw_64x128x32_64x32x32_id.cu |   4 +-
 ..._dp4a_ncdiv4hw4_nchw_64x128x32_64x32x32_relu.cu |   4 +-
 ...dp4a_ncdiv4hw4_nchw_64x32x32_64x32x32_hswish.cu |   4 +-
 ...emm_dp4a_ncdiv4hw4_nchw_64x32x32_64x32x32_id.cu |   4 +-
 ...m_dp4a_ncdiv4hw4_nchw_64x32x32_64x32x32_relu.cu |   4 +-
 ...dp4a_ncdiv4hw4_nchw_64x64x32_64x32x32_hswish.cu |   4 +-
 ...emm_dp4a_ncdiv4hw4_nchw_64x64x32_64x32x32_id.cu |   4 +-
 ...m_dp4a_ncdiv4hw4_nchw_64x64x32_64x32x32_relu.cu |   4 +-
 ..._imma_ncdiv32hw32_128x128x64_64x64x64_hswish.cu |   4 +-
 ...gemm_imma_ncdiv32hw32_128x128x64_64x64x64_id.cu |   4 +-
 ...mm_imma_ncdiv32hw32_128x128x64_64x64x64_relu.cu |   4 +-
 ..._imma_ncdiv32hw32_128x256x64_64x64x64_hswish.cu |   4 +-
 ...gemm_imma_ncdiv32hw32_128x256x64_64x64x64_id.cu |   4 +-
 ...mm_imma_ncdiv32hw32_128x256x64_64x64x64_relu.cu |   4 +-
 ...m_imma_ncdiv32hw32_128x64x64_64x32x64_hswish.cu |   4 +-
 ..._gemm_imma_ncdiv32hw32_128x64x64_64x32x64_id.cu |   4 +-
 ...emm_imma_ncdiv32hw32_128x64x64_64x32x64_relu.cu |   4 +-
 ...a_ncdiv32hw32_1x1_128x128x64_64x64x64_hswish.cu |   4 +-
 ..._imma_ncdiv32hw32_1x1_128x128x64_64x64x64_id.cu |   4 +-
 ...mma_ncdiv32hw32_1x1_128x128x64_64x64x64_relu.cu |   4 +-
 ...a_ncdiv32hw32_1x1_128x256x64_64x64x64_hswish.cu |   4 +-
 ..._imma_ncdiv32hw32_1x1_128x256x64_64x64x64_id.cu |   4 +-
 ...mma_ncdiv32hw32_1x1_128x256x64_64x64x64_relu.cu |   4 +-
 ...ma_ncdiv32hw32_1x1_128x64x64_64x32x64_hswish.cu |   4 +-
 ...m_imma_ncdiv32hw32_1x1_128x64x64_64x32x64_id.cu |   4 +-
 ...imma_ncdiv32hw32_1x1_128x64x64_64x32x64_relu.cu |   4 +-
 ...a_ncdiv32hw32_1x1_256x128x64_64x64x64_hswish.cu |   4 +-
 ..._imma_ncdiv32hw32_1x1_256x128x64_64x64x64_id.cu |   4 +-
 ...mma_ncdiv32hw32_1x1_256x128x64_64x64x64_relu.cu |   4 +-
 ...mma_ncdiv32hw32_1x1_32x64x64_32x16x64_hswish.cu |   4 +-
 ...mm_imma_ncdiv32hw32_1x1_32x64x64_32x16x64_id.cu |   4 +-
 ..._imma_ncdiv32hw32_1x1_32x64x64_32x16x64_relu.cu |   4 +-
 ...ma_ncdiv32hw32_1x1_64x128x64_32x64x64_hswish.cu |   4 +-
 ...m_imma_ncdiv32hw32_1x1_64x128x64_32x64x64_id.cu |   4 +-
 ...imma_ncdiv32hw32_1x1_64x128x64_32x64x64_relu.cu |   4 +-
 ...mma_ncdiv32hw32_1x1_64x64x64_32x32x64_hswish.cu |   4 +-
 ...mm_imma_ncdiv32hw32_1x1_64x64x64_32x32x64_id.cu |   4 +-
 ..._imma_ncdiv32hw32_1x1_64x64x64_32x32x64_relu.cu |   4 +-
 ..._imma_ncdiv32hw32_256x128x64_64x64x64_hswish.cu |   4 +-
 ...gemm_imma_ncdiv32hw32_256x128x64_64x64x64_id.cu |   4 +-
 ...mm_imma_ncdiv32hw32_256x128x64_64x64x64_relu.cu |   4 +-
 ...mm_imma_ncdiv32hw32_32x64x64_32x16x64_hswish.cu |   4 +-
 ...t_gemm_imma_ncdiv32hw32_32x64x64_32x16x64_id.cu |   4 +-
 ...gemm_imma_ncdiv32hw32_32x64x64_32x16x64_relu.cu |   4 +-
 ...m_imma_ncdiv32hw32_64x128x64_32x64x64_hswish.cu |   4 +-
 ..._gemm_imma_ncdiv32hw32_64x128x64_32x64x64_id.cu |   4 +-
 ...emm_imma_ncdiv32hw32_64x128x64_32x64x64_relu.cu |   4 +-
 ...mm_imma_ncdiv32hw32_64x64x64_32x32x64_hswish.cu |   4 +-
 ...t_gemm_imma_ncdiv32hw32_64x64x64_32x32x64_id.cu |   4 +-
 ...gemm_imma_ncdiv32hw32_64x64x64_32x32x64_relu.cu |   4 +-
 ...v32hw32_ncdiv4hw4_128x128x64_64x64x64_hswish.cu |   4 +-
 ...ncdiv32hw32_ncdiv4hw4_128x128x64_64x64x64_id.cu |   4 +-
 ...div32hw32_ncdiv4hw4_128x128x64_64x64x64_relu.cu |   4 +-
 ...v32hw32_ncdiv4hw4_128x256x64_64x64x64_hswish.cu |   4 +-
 ...ncdiv32hw32_ncdiv4hw4_128x256x64_64x64x64_id.cu |   4 +-
 ...div32hw32_ncdiv4hw4_128x256x64_64x64x64_relu.cu |   4 +-
 ...iv32hw32_ncdiv4hw4_128x64x64_64x32x64_hswish.cu |   4 +-
 ..._ncdiv32hw32_ncdiv4hw4_128x64x64_64x32x64_id.cu |   4 +-
 ...cdiv32hw32_ncdiv4hw4_128x64x64_64x32x64_relu.cu |   4 +-
 ...w32_ncdiv4hw4_1x1_128x128x64_64x64x64_hswish.cu |   4 +-
 ...v32hw32_ncdiv4hw4_1x1_128x128x64_64x64x64_id.cu |   4 +-
 ...2hw32_ncdiv4hw4_1x1_128x128x64_64x64x64_relu.cu |   4 +-
 ...w32_ncdiv4hw4_1x1_128x256x64_64x64x64_hswish.cu |   4 +-
 ...v32hw32_ncdiv4hw4_1x1_128x256x64_64x64x64_id.cu |   4 +-
 ...2hw32_ncdiv4hw4_1x1_128x256x64_64x64x64_relu.cu |   4 +-
 ...hw32_ncdiv4hw4_1x1_128x64x64_64x32x64_hswish.cu |   4 +-
 ...iv32hw32_ncdiv4hw4_1x1_128x64x64_64x32x64_id.cu |   4 +-
 ...32hw32_ncdiv4hw4_1x1_128x64x64_64x32x64_relu.cu |   4 +-
 ...w32_ncdiv4hw4_1x1_256x128x64_64x64x64_hswish.cu |   4 +-
 ...v32hw32_ncdiv4hw4_1x1_256x128x64_64x64x64_id.cu |   4 +-
 ...2hw32_ncdiv4hw4_1x1_256x128x64_64x64x64_relu.cu |   4 +-
 ...2hw32_ncdiv4hw4_1x1_32x64x64_16x32x64_hswish.cu |   4 +-
 ...div32hw32_ncdiv4hw4_1x1_32x64x64_16x32x64_id.cu |   4 +-
 ...v32hw32_ncdiv4hw4_1x1_32x64x64_16x32x64_relu.cu |   4 +-
 ...hw32_ncdiv4hw4_1x1_64x128x64_32x64x64_hswish.cu |   4 +-
 ...iv32hw32_ncdiv4hw4_1x1_64x128x64_32x64x64_id.cu |   4 +-
 ...32hw32_ncdiv4hw4_1x1_64x128x64_32x64x64_relu.cu |   4 +-
 ...2hw32_ncdiv4hw4_1x1_64x64x64_32x32x64_hswish.cu |   4 +-
 ...div32hw32_ncdiv4hw4_1x1_64x64x64_32x32x64_id.cu |   4 +-
 ...v32hw32_ncdiv4hw4_1x1_64x64x64_32x32x64_relu.cu |   4 +-
 ...v32hw32_ncdiv4hw4_256x128x64_64x64x64_hswish.cu |   4 +-
 ...ncdiv32hw32_ncdiv4hw4_256x128x64_64x64x64_id.cu |   4 +-
 ...div32hw32_ncdiv4hw4_256x128x64_64x64x64_relu.cu |   4 +-
 ...div32hw32_ncdiv4hw4_32x64x64_16x32x64_hswish.cu |   4 +-
 ...a_ncdiv32hw32_ncdiv4hw4_32x64x64_16x32x64_id.cu |   4 +-
 ...ncdiv32hw32_ncdiv4hw4_32x64x64_16x32x64_relu.cu |   4 +-
 ...iv32hw32_ncdiv4hw4_64x128x64_32x64x64_hswish.cu |   4 +-
 ..._ncdiv32hw32_ncdiv4hw4_64x128x64_32x64x64_id.cu |   4 +-
 ...cdiv32hw32_ncdiv4hw4_64x128x64_32x64x64_relu.cu |   4 +-
 ...div32hw32_ncdiv4hw4_64x64x64_32x32x64_hswish.cu |   4 +-
 ...a_ncdiv32hw32_ncdiv4hw4_64x64x64_32x32x64_id.cu |   4 +-
 ...ncdiv32hw32_ncdiv4hw4_64x64x64_32x32x64_relu.cu |   4 +-
 dnn/src/cuda/conv_bias/opr_impl.h                  |   1 +
 dnn/test/cuda/conv_bias_int8.cpp                   |   2 +-
 292 files changed, 1292 insertions(+), 556 deletions(-)
 create mode 100644 dnn/src/cuda/conv_bias/implicit_gemm_uint4_int4_nchw64_imma.cpp
 mode change 120000 => 100644 dnn/src/cuda/conv_bias/int4/conv_bias_int4_implicit_gemm_cutlass_wrapper.cuinl
 create mode 100644 dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_hswish.cu
 create mode 100644 dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_id.cu
 create mode 100644 dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_relu.cu
 create mode 100644 dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_hswish.cu
 create mode 100644 dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_id.cu
 create mode 100644 dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_relu.cu

diff --git a/dnn/src/cuda/conv_bias/algo.cpp b/dnn/src/cuda/conv_bias/algo.cpp
index ac7a55d8..a1baa9a3 100644
--- a/dnn/src/cuda/conv_bias/algo.cpp
+++ b/dnn/src/cuda/conv_bias/algo.cpp
@@ -87,6 +87,9 @@ ConvBiasForwardImpl::AlgoPack::AlgoPack() {
     for (auto&& algo : int4_int4_nchw64_imma) {
         all_algos.push_back(&algo);
     }
+    for (auto&& algo : uint4_int4_nchw64_imma) {
+        all_algos.push_back(&algo);
+    }
 #endif
 #endif
     fill_dp4a_algos();
@@ -231,8 +234,17 @@ void ConvBiasForwardImpl::AlgoPack::fill_imma_algos() {
 
     {
         using AlgoParam = AlgoInt4Int4NCHW64IMMAImplicitGemm::AlgoParam;
-        int4_int4_nchw64_imma.emplace_back(AlgoParam{128, 128, 128, 64, 64, 128});
-        int4_int4_nchw64_imma.emplace_back(AlgoParam{256, 128, 128, 64, 64, 128});
+        int4_int4_nchw64_imma.emplace_back(
+                AlgoParam{128, 128, 128, 64, 64, 128});
+        int4_int4_nchw64_imma.emplace_back(
+                AlgoParam{256, 128, 128, 64, 64, 128});
+    }
+    {
+        using AlgoParam = AlgoUInt4Int4NCHW64IMMAImplicitGemm::AlgoParam;
+        uint4_int4_nchw64_imma.emplace_back(
+                AlgoParam{128, 128, 128, 64, 64, 128});
+        uint4_int4_nchw64_imma.emplace_back(
+                AlgoParam{256, 128, 128, 64, 64, 128});
     }
 #endif
 }
diff --git a/dnn/src/cuda/conv_bias/algo.h b/dnn/src/cuda/conv_bias/algo.h
index 00d1d92f..aa74e622 100644
--- a/dnn/src/cuda/conv_bias/algo.h
+++ b/dnn/src/cuda/conv_bias/algo.h
@@ -62,6 +62,7 @@ public:
         CUDA_IMPLICIT_GEMM_UNROLL_WIDTH_CHWN4_IMMA_INT8,
         CUDA_IMPLICIT_GEMM_IMMA_NCHW32_INT8,
         CUDA_IMPLICIT_GEMM_IMMA_NCHW64_INT4_INT4,
+        CUDA_IMPLICIT_GEMM_IMMA_NCHW64_UINT4_INT4,
         CUDA_BFLOAT16,
         CUDA_IMPLICIT_GEMM_SASS_NCHW4_DOTPROD_INT8,
         CUDA_IMPLICIT_GEMM_1X1_SASS_NCHW4_DOTPROD_INT8,
@@ -810,6 +811,55 @@ private:
     AlgoParam m_algo_param;
     std::string m_name;
 };
+
+class ConvBiasForwardImpl::AlgoUInt4Int4NCHW64IMMAImplicitGemm final
+        : public AlgoBase {
+public:
+    struct AlgoParam {
+        int threadblock_m;
+        int threadblock_n;
+        int threadblock_k;
+        int warp_m;
+        int warp_n;
+        int warp_k;
+    };
+    AlgoUInt4Int4NCHW64IMMAImplicitGemm(AlgoParam algo_param)
+            : m_algo_param{algo_param} {
+        m_name = ConvBias::algo_name<ConvBias::DirectParam>(
+                ssprintf("UINT4_INT4_NCHW64_IMMA_IMPLICIT_GEMM_%s",
+                         to_string(m_algo_param).c_str()),
+                ConvBias::DirectParam{});
+    }
+    bool is_available(const SizeArgs& args) const override;
+    size_t get_workspace_in_bytes(const SizeArgs& args) const override;
+    void exec(const ExecArgs& args) const override;
+    const char* name() const override { return m_name.c_str(); }
+    AlgoAttribute attribute() const override {
+        return AlgoAttribute::REPRODUCIBLE;
+    }
+    static std::string to_string(AlgoParam algo_param);
+    size_t get_preprocess_workspace_in_bytes(
+            const SizeArgs& args) const override;
+    SmallVector<TensorLayout> deduce_preprocessed_filter_layout(
+            const SizeArgs& args) const override;
+    void exec_preprocess(const ExecArgs& args) const override;
+    MEGDNN_DECL_ALGO_TYPE(CUDA_IMPLICIT_GEMM_IMMA_NCHW64_UINT4_INT4)
+
+    std::string param() const override {
+        std::string ret;
+        serialize_write_pod(m_algo_param, ret);
+        return ret;
+    }
+
+private:
+    WorkspaceBundle get_workspace_bundle(dt_byte* raw_ptr,
+                                         const SizeArgs& args) const;
+    void reorder_filter_bias(const ExecArgs& args, void* reduce_filter,
+                             void* reordered_filter,
+                             void* reordered_bias) const;
+    AlgoParam m_algo_param;
+    std::string m_name;
+};
 #endif
 
 class ConvBiasForwardImpl::AlgoBFloat16 final : public AlgoBase {
@@ -868,6 +918,7 @@ public:
 #if CUDA_VERSION >= 10020
     std::vector<AlgoInt8NCHW32IMMAImplicitGemm> int8_nchw32_imma;
     std::vector<AlgoInt4Int4NCHW64IMMAImplicitGemm> int4_int4_nchw64_imma;
+    std::vector<AlgoUInt4Int4NCHW64IMMAImplicitGemm> uint4_int4_nchw64_imma;
 #endif
     std::vector<std::unique_ptr<AlgoGroupConvGeneral>> gconv_refhold;
     AlgoBFloat16 bfloat16;
diff --git a/dnn/src/cuda/conv_bias/cutlass_convolution_wrapper.cu b/dnn/src/cuda/conv_bias/cutlass_convolution_wrapper.cu
index 82884e07..cb77f617 100644
--- a/dnn/src/cuda/conv_bias/cutlass_convolution_wrapper.cu
+++ b/dnn/src/cuda/conv_bias/cutlass_convolution_wrapper.cu
@@ -662,7 +662,7 @@ INST(true);
 INST(false);
 #undef INST
 
-/* ====== cutlass kernel wrapper for int4 nchw64 layout ====== */
+/* ====== cutlass kernel wrapper for int4 x int4 nchw64 layout ====== */
 
 #if MEGDNN_TEGRA_X1
 template <bool NeedLoadFromConstMem>
@@ -783,4 +783,132 @@ void megdnn::cuda::cutlass_wrapper::
 INST(true);
 #undef INST
 
+/* ====== cutlass kernel wrapper for uint4 x int4 nchw64 layout ====== */
+
+#if MEGDNN_TEGRA_X1
+template <bool NeedLoadFromConstMem>
+void megdnn::cuda::cutlass_wrapper::
+        do_conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64(
+                const uint8_t* /* d_src */, const int8_t* /* d_filter */,
+                const int32_t* /* d_bias */, const uint8_t* /* d_z */,
+                uint8_t* /* d_dst */, int* /* workspace */,
+                const convolution::ConvParam& /* param */,
+                uint32_t /* nonlinear_mode */, float /* alpha */,
+                float /* beta */, float /* gamma */, float /* delta */,
+                float /* theta */, float /* scale */,
+                uint8_t /* src_zero_point */,
+                const GemmCoord& /* threadblock_shape */,
+                const GemmCoord& /* warp_shape */, cudaStream_t /* stream */) {}
+#else
+template <bool NeedLoadFromConstMem>
+void megdnn::cuda::cutlass_wrapper::
+        do_conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64(
+                const uint8_t* d_src, const int8_t* d_filter,
+                const int32_t* d_bias, const uint8_t* d_z, uint8_t* d_dst,
+                int* workspace, const convolution::ConvParam& param,
+                uint32_t nonlinear_mode, float alpha, float beta, float gamma,
+                float delta, float theta, float scale, uint8_t src_zero_point,
+                const GemmCoord& threadblock_shape, const GemmCoord& warp_shape,
+                cudaStream_t stream) {
+#define DISPATCH_KERNEL_WITH_TILE_SHAPE(threadblock_m_, threadblock_n_,        \
+                                        threadblock_k_, warp_m_, warp_n_,      \
+                                        warp_k_)                               \
+    if (threadblock_shape.m() == threadblock_m_ &&                             \
+        threadblock_shape.n() == threadblock_n_ &&                             \
+        threadblock_shape.k() == threadblock_k_ &&                             \
+        warp_shape.m() == warp_m_ && warp_shape.n() == warp_n_ &&              \
+        warp_shape.k() == warp_k_) {                                           \
+        using ThreadBlockShape =                                               \
+                cutlass::gemm::GemmShape<threadblock_m_, threadblock_n_,       \
+                                         threadblock_k_>;                      \
+        using WarpShape = cutlass::gemm::GemmShape<warp_m_, warp_n_, warp_k_>; \
+        using InstructionShape = cutlass::gemm::GemmShape<8, 8, 32>;           \
+        using Convolution = cutlass::conv::device::Convolution<                \
+                cutlass::uint4b_t, cutlass::layout::TensorNCxHWx<64>,          \
+                cutlass::int4b_t, cutlass::layout::TensorCxRSKx<64>,           \
+                ElementOutput, cutlass::layout::TensorNCxHWx<64>, int32_t,     \
+                cutlass::layout::TensorNCxHWx<64>, int32_t,                    \
+                cutlass::conv::ConvType::kConvolution,                         \
+                cutlass::arch::OpClassTensorOp, cutlass::arch::Sm75,           \
+                ThreadBlockShape, WarpShape, InstructionShape, EpilogueOp,     \
+                cutlass::conv::threadblock::                                   \
+                        ConvolutionFpropNCxHWxThreadblockSwizzle,              \
+                2, 32, 32, NeedLoadFromConstMem>;                              \
+        typename Convolution::ConvolutionParameter conv_param(                 \
+                param.n, param.hi, param.wi, param.ci, param.co, param.fh,     \
+                param.fw, param.ho, param.wo, param.ph, param.pw, param.sh,    \
+                param.sw, 1, 1, cutlass::conv::Mode::kCrossCorrelation);       \
+        return cutlass_convolution_wrapper<Convolution>(                       \
+                reinterpret_cast<const cutlass::uint4b_t*>(d_src),             \
+                reinterpret_cast<const cutlass::int4b_t*>(d_filter), d_bias,   \
+                reinterpret_cast<const cutlass::uint4b_t*>(d_z),               \
+                reinterpret_cast<cutlass::uint4b_t*>(d_dst), workspace,        \
+                conv_param, epilogue, stream, {src_zero_point});               \
+    }
+#define DISPATCH_KERNEL                                                      \
+    DISPATCH_KERNEL_WITH_TILE_SHAPE(128, 128, 128, 64, 64, 128);             \
+    DISPATCH_KERNEL_WITH_TILE_SHAPE(256, 128, 128, 64, 64, 128);             \
+    megdnn_assert(false,                                                     \
+                  "unsupported threadblock shape (%dx%dx%d) and warp shape " \
+                  "(%dx%dx%d)",                                              \
+                  threadblock_shape.m(), threadblock_shape.n(),              \
+                  threadblock_shape.k(), warp_shape.m(), warp_shape.n(),     \
+                  warp_shape.k());
+    using ElementOutput = cutlass::uint4b_t;
+    using ElementAccumulator = int32_t;
+    using ElementBias = int32_t;
+    using ElementCompute = float;
+    using NonlineMode = megdnn::param_enumv::ConvBias::NonlineMode;
+    switch (nonlinear_mode) {
+        case NonlineMode::IDENTITY: {
+            using EpilogueOp =
+                    cutlass::epilogue::thread::BiasAddLinearCombinationClamp<
+                            ElementOutput, 16, ElementAccumulator, ElementBias,
+                            ElementCompute>;
+            typename EpilogueOp::Params epilogue{alpha, beta, gamma,
+                                                 delta + theta};
+            DISPATCH_KERNEL;
+        }
+        case NonlineMode::RELU: {
+            using EpilogueOp = cutlass::epilogue::thread::
+                    BiasAddLinearCombinationReluClamp<
+                            ElementOutput, 16, ElementAccumulator, ElementBias,
+                            ElementCompute>;
+            typename EpilogueOp::Params epilogue{alpha, beta,  gamma,
+                                                 0,     delta, theta};
+            DISPATCH_KERNEL;
+        }
+        case NonlineMode::H_SWISH: {
+            using EpilogueOp = cutlass::epilogue::thread::
+                    BiasAddLinearCombinationHSwishClamp<
+                            ElementOutput, 16, ElementAccumulator, ElementBias,
+                            ElementCompute>;
+            typename EpilogueOp::Params epilogue{alpha, beta,  gamma,
+                                                 scale, delta, theta};
+            DISPATCH_KERNEL;
+        }
+        default:
+            megdnn_assert(false,
+                          "unsupported nonlinear mode for conv bias operator");
+    }
+#undef DISPATCH_KERNEL_WITH_TILE_SHAPE
+#undef DISPATCH_KERNEL
+}
+#endif
+
+#define INST(need_load_from_const_mem)                                         \
+    template void megdnn::cuda::cutlass_wrapper::                              \
+            do_conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64<            \
+                    need_load_from_const_mem>(                                 \
+                    const uint8_t* d_src, const int8_t* d_filter,              \
+                    const int32_t* d_bias, const uint8_t* d_z, uint8_t* d_dst, \
+                    int* workspace, const convolution::ConvParam& param,       \
+                    uint32_t nonlinear_mode, float alpha, float beta,          \
+                    float gamma, float delta, float theta, float scale,        \
+                    uint8_t src_zero_point,                                    \
+                    const GemmCoord& threadblock_shape,                        \
+                    const GemmCoord& warp_shape, cudaStream_t stream);
+INST(true);
+#undef INST
+
 // vim: syntax=cuda.doxygen
diff --git a/dnn/src/cuda/conv_bias/cutlass_convolution_wrapper.cuh b/dnn/src/cuda/conv_bias/cutlass_convolution_wrapper.cuh
index 3c9a3484..c97f2bc7 100644
--- a/dnn/src/cuda/conv_bias/cutlass_convolution_wrapper.cuh
+++ b/dnn/src/cuda/conv_bias/cutlass_convolution_wrapper.cuh
@@ -29,7 +29,7 @@ void cutlass_convolution_wrapper(
         typename Convolution::ElementDst* d_dst, int* workspace,
         typename Convolution::ConvolutionParameter const& conv_param,
         typename Convolution::EpilogueOutputOp::Params const& epilogue,
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param = {});
 
 template <bool NeedLoadFromConstMem>
 void do_conv_bias_int8_implicit_gemm_imma_ncdiv32hw32(
@@ -85,6 +85,15 @@ void do_conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64(
         const GemmCoord& threadblock_shape, const GemmCoord& warp_shape,
         cudaStream_t stream);
 
+template <bool NeedLoadFromConstMem>
+void do_conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64(
+        const uint8_t* d_src, const int8_t* d_filter, const int32_t* d_bias,
+        const uint8_t* d_z, uint8_t* d_dst, int* workspace,
+        const convolution::ConvParam& param, uint32_t nonlinear_mode,
+        float alpha, float beta, float gamma, float delta, float theta,
+        float scale, uint8_t src_zero_point, const GemmCoord& threadblock_shape,
+        const GemmCoord& warp_shape, cudaStream_t stream);
+
 }  // namespace cutlass_wrapper
 }  // namespace cuda
 }  // namespace megdnn
diff --git a/dnn/src/cuda/conv_bias/implicit_gemm_int4_int4_nchw64_imma.cpp b/dnn/src/cuda/conv_bias/implicit_gemm_int4_int4_nchw64_imma.cpp
index 4a8a4cc6..50ead151 100644
--- a/dnn/src/cuda/conv_bias/implicit_gemm_int4_int4_nchw64_imma.cpp
+++ b/dnn/src/cuda/conv_bias/implicit_gemm_int4_int4_nchw64_imma.cpp
@@ -1,5 +1,5 @@
 /**
- * \file dnn/src/cuda/conv_bias/implicit_gemm_int4_nchw64_imma.cpp
+ * \file dnn/src/cuda/conv_bias/implicit_gemm_int4_int4_nchw64_imma.cpp
  * MegEngine is Licensed under the Apache License, Version 2.0 (the "License")
  *
  * Copyright (c) 2014-2021 Megvii Inc. All rights reserved.
@@ -77,7 +77,6 @@ ConvBiasForwardImpl::AlgoInt4Int4NCHW64IMMAImplicitGemm::get_workspace_in_bytes(
 
 void ConvBiasForwardImpl::AlgoInt4Int4NCHW64IMMAImplicitGemm::exec(
         const ExecArgs& args) const {
-    using Format = Param::Format;
     auto&& param = args.opr->param();
     auto&& fm = args.filter_meta;
     size_t n = args.src_layout->operator[](0),
diff --git a/dnn/src/cuda/conv_bias/implicit_gemm_uint4_int4_nchw64_imma.cpp b/dnn/src/cuda/conv_bias/implicit_gemm_uint4_int4_nchw64_imma.cpp
new file mode 100644
index 00000000..6ca37306
--- /dev/null
+++ b/dnn/src/cuda/conv_bias/implicit_gemm_uint4_int4_nchw64_imma.cpp
@@ -0,0 +1,253 @@
+/**
+ * \file dnn/src/cuda/conv_bias/implicit_gemm_uint4_int4_nchw64_imma.cpp
+ * MegEngine is Licensed under the Apache License, Version 2.0 (the "License")
+ *
+ * Copyright (c) 2014-2021 Megvii Inc. All rights reserved.
+ *
+ * Unless required by applicable law or agreed to in writing,
+ * software distributed under the License is distributed on an
+ * "AS IS" BASIS, WITHOUT ARRANTIES OR CONDITIONS OF ANY KIND, either express or
+ * implied.
+ */
+
+#include "./algo.h"
+#include "src/common/conv_bias.h"
+#include "src/cuda/conv_bias/cutlass_convolution_wrapper.cuh"
+#include "src/cuda/conv_bias/reduce_filter.cuh"
+#include "src/cuda/convolution_helper/parameter.cuh"
+#include "src/cuda/utils.h"
+
+using namespace megdnn;
+using namespace cuda;
+using namespace convolution;
+
+#if CUDA_VERSION >= 10020
+bool ConvBiasForwardImpl::AlgoUInt4Int4NCHW64IMMAImplicitGemm::is_available(
+        const SizeArgs& args) const {
+    if (args.bias_layout->ndim <= 0)
+        return false;
+
+    using Param = param::ConvBias;
+    using Format = Param::Format;
+    using Sparse = Param::Sparse;
+    using Mode = Param::Mode;
+    using NonlineMode = megdnn::param::ConvBias::NonlineMode;
+
+    auto&& param = args.opr->param();
+
+    if (!check_bias_share_in_channel(*(args.bias_layout), param.format))
+        return false;
+
+    if (param.format != Format::NCHW64 || param.sparse != Sparse::DENSE ||
+        param.mode != Mode::CROSS_CORRELATION)
+        return false;
+
+    if (param.nonlineMode != NonlineMode::IDENTITY &&
+        param.nonlineMode != NonlineMode::RELU &&
+        param.nonlineMode != NonlineMode::H_SWISH)
+        return false;
+
+    if (args.src_layout->dtype.enumv() != DTypeEnum::Quantized4Asymm ||
+        args.filter_layout->dtype.enumv() != DTypeEnum::QuantizedS4 ||
+        args.bias_layout->dtype.enumv() != DTypeEnum::QuantizedS32 ||
+        args.dst_layout->dtype.enumv() != DTypeEnum::Quantized4Asymm)
+        return false;
+
+    if (!is_compute_capability_required(7, 5))
+        return false;
+
+    return true;
+}
+
+WorkspaceBundle
+ConvBiasForwardImpl::AlgoUInt4Int4NCHW64IMMAImplicitGemm::get_workspace_bundle(
+        dt_byte* raw_ptr, const SizeArgs& args) const {
+    if (args.preprocessed_filter) {
+        return WorkspaceBundle{raw_ptr, {}};
+    } else {
+        size_t ws_filter = args.filter_layout->span().dist_byte(),
+               ws_bias = args.bias_layout->span().dist_byte(),
+               ws_reduce_filter = get_preprocess_workspace_in_bytes(args);
+        return WorkspaceBundle{raw_ptr,
+                               {ws_filter + ws_bias + ws_reduce_filter}};
+    }
+}
+
+size_t ConvBiasForwardImpl::AlgoUInt4Int4NCHW64IMMAImplicitGemm::
+        get_workspace_in_bytes(const SizeArgs& args) const {
+    return get_workspace_bundle(nullptr, args).total_size_in_bytes();
+}
+
+void ConvBiasForwardImpl::AlgoUInt4Int4NCHW64IMMAImplicitGemm::exec(
+        const ExecArgs& args) const {
+    auto&& param = args.opr->param();
+    auto&& fm = args.filter_meta;
+    size_t n = args.src_layout->operator[](0),
+           ci = args.src_layout->operator[](1) * 64,
+           hi = args.src_layout->operator[](2),
+           wi = args.src_layout->operator[](3);
+    size_t co = args.dst_layout->operator[](1) * 64,
+           ho = args.dst_layout->operator[](2),
+           wo = args.dst_layout->operator[](3);
+    UNPACK_CONV_PARAMETER(fm, param);
+    MARK_USED_VAR
+    auto&& stream = cuda_stream(args.opr->handle());
+
+    void* filter_ptr = nullptr;
+    void* bias_ptr = nullptr;
+    if (args.preprocessed_filter) {
+        megdnn_assert(args.preprocessed_filter->tensors.size() == 2);
+        filter_ptr = args.preprocessed_filter->tensors[0].raw_ptr;
+        bias_ptr = args.preprocessed_filter->tensors[1].raw_ptr;
+    } else {
+        // reorder filter and bias
+        filter_ptr = reinterpret_cast<void*>(args.workspace.raw_ptr);
+        bias_ptr =
+                reinterpret_cast<void*>(args.workspace.raw_ptr +
+                                        args.filter_layout->span().dist_byte());
+        void* reduce_filter_ptr =
+                reinterpret_cast<void*>(args.workspace.raw_ptr +
+                                        args.filter_layout->span().dist_byte() +
+                                        args.bias_layout->span().dist_byte());
+        reorder_filter_bias(args, reduce_filter_ptr, filter_ptr, bias_ptr);
+    }
+
+    ConvParam kern_param;
+    kern_param.n = n, kern_param.co = co, kern_param.ci = ci,
+    kern_param.hi = hi, kern_param.wi = wi, kern_param.ho = ho,
+    kern_param.wo = wo, kern_param.ph = ph, kern_param.pw = pw,
+    kern_param.sh = sh, kern_param.sw = sw, kern_param.fh = fh,
+    kern_param.fw = fw;
+
+    float src_scale =
+                  args.src_layout->dtype.param<dtype::Quantized4Asymm>().scale,
+          filter_scale =
+                  args.filter_layout->dtype.param<dtype::QuantizedS4>().scale,
+          bias_scale =
+                  args.bias_layout->dtype.param<dtype::QuantizedS32>().scale,
+          dst_scale =
+                  args.dst_layout->dtype.param<dtype::Quantized4Asymm>().scale;
+
+    uint8_t src_zero = args.src_layout->dtype.param<dtype::Quantized4Asymm>()
+                               .zero_point,
+            dst_zero = args.dst_layout->dtype.param<dtype::Quantized4Asymm>()
+                               .zero_point;
+
+    float alpha = src_scale * filter_scale / dst_scale;
+    float beta = bias_scale / dst_scale;
+    float gamma = 0.f;
+    float delta = 0.f;
+    float theta = dst_zero;
+
+    uint8_t* z_dev_ptr = nullptr;
+    if (args.z_layout->ndim > 0) {
+        z_dev_ptr = reinterpret_cast<uint8_t*>(args.z_tensor->raw_ptr);
+        float z_scale =
+                args.z_layout->dtype.param<dtype::Quantized4Asymm>().scale;
+        uint8_t z_zero =
+                args.z_layout->dtype.param<dtype::Quantized4Asymm>().zero_point;
+        gamma = z_scale / dst_scale;
+        delta = -z_zero * gamma;
+    }
+
+    uint32_t nonlinear_mode = static_cast<uint32_t>(param.nonlineMode);
+
+    cutlass_wrapper::do_conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64<
+            true>(
+            reinterpret_cast<uint8_t*>(args.src_tensor->raw_ptr),
+            reinterpret_cast<int8_t*>(filter_ptr),
+            reinterpret_cast<int32_t*>(bias_ptr), z_dev_ptr,
+            reinterpret_cast<uint8_t*>(args.dst_tensor->raw_ptr), nullptr,
+            kern_param, nonlinear_mode, alpha, beta, gamma, delta, theta,
+            dst_scale, src_zero,
+            cutlass_wrapper::GemmCoord{m_algo_param.threadblock_m,
+                                       m_algo_param.threadblock_n,
+                                       m_algo_param.threadblock_k},
+            cutlass_wrapper::GemmCoord{m_algo_param.warp_m, m_algo_param.warp_n,
+                                       m_algo_param.warp_k},
+            stream);
+}
+
+std::string ConvBiasForwardImpl::AlgoUInt4Int4NCHW64IMMAImplicitGemm::to_string(
+        AlgoParam algo_param) {
+    return ssprintf("%uX%uX%u_%uX%uX%u", algo_param.threadblock_m,
+                    algo_param.threadblock_n, algo_param.threadblock_k,
+                    algo_param.warp_m, algo_param.warp_n, algo_param.warp_k);
+}
+
+size_t ConvBiasForwardImpl::AlgoUInt4Int4NCHW64IMMAImplicitGemm::
+        get_preprocess_workspace_in_bytes(const SizeArgs& args) const {
+    size_t co = args.filter_layout->operator[](0),
+           ci = args.filter_layout->operator[](1) * 64,
+           fh = args.filter_layout->operator[](2),
+           fw = args.filter_layout->operator[](3);
+    size_t ws_size_reduce_filter = co * sizeof(int32_t);
+    size_t A = co, B = ci * fh * fw / 8, C = 1;
+    ws_size_reduce_filter += do_dispatch_reduce_workspace_in_bytes(A, B, C);
+    return ws_size_reduce_filter;
+}
+
+SmallVector<TensorLayout> ConvBiasForwardImpl::
+        AlgoUInt4Int4NCHW64IMMAImplicitGemm::deduce_preprocessed_filter_layout(
+                const SizeArgs& args) const {
+    return {args.filter_layout->collapse_contiguous(),
+            args.bias_layout->collapse_contiguous()};
+}
+
+void ConvBiasForwardImpl::AlgoUInt4Int4NCHW64IMMAImplicitGemm::exec_preprocess(
+        const ExecArgs& args) const {
+    megdnn_assert(args.preprocessed_filter->tensors.size() == 2);
+    reorder_filter_bias(args, args.workspace.raw_ptr,
+                        args.preprocessed_filter->tensors[0].raw_ptr,
+                        args.preprocessed_filter->tensors[1].raw_ptr);
+}
+
+void ConvBiasForwardImpl::AlgoUInt4Int4NCHW64IMMAImplicitGemm::
+        reorder_filter_bias(const ExecArgs& args, void* reduce_filter,
+                            void* reordered_filter,
+                            void* reordered_bias) const {
+    auto&& param = args.opr->param();
+    auto&& fm = args.filter_meta;
+    size_t n = args.src_layout->operator[](0),
+           ci = args.src_layout->operator[](1) * 64,
+           hi = args.src_layout->operator[](2),
+           wi = args.src_layout->operator[](3);
+    size_t co = args.dst_layout->operator[](1) * 64,
+           ho = args.dst_layout->operator[](2),
+           wo = args.dst_layout->operator[](3);
+    UNPACK_CONV_PARAMETER(fm, param);
+    MARK_USED_VAR;
+    auto&& stream = cuda_stream(args.opr->handle());
+
+    // filter: KCRS64 => CRSK64
+    TensorLayout src{{co, ci / 64, fh, fw, 64}, dtype::QuantizedS4()};
+    src.init_contiguous_stride();
+    TensorLayout dst = src;
+    dst.stride[0] = 64;
+    dst.stride[1] = co * fh * fw * 64;
+    dst.stride[2] = co * fw * 64;
+    dst.stride[3] = co * 64;
+    dst.stride[4] = 1;
+    TensorND ts_src, ts_dst;
+    ts_src.raw_ptr = args.filter_tensor->raw_ptr;
+    ts_src.layout = src;
+    ts_dst.raw_ptr = reordered_filter;
+    ts_dst.layout = dst;
+    auto&& transpose = args.opr->handle()->create_operator<RelayoutForward>();
+    transpose->exec(ts_src, ts_dst);
+
+    // reduce filter and update bias
+    int32_t* workspace = reinterpret_cast<int32_t*>(reordered_bias) +
+                         args.bias_layout->span().dist_byte();
+    int src_zero_point =
+            args.src_tensor->layout.dtype.param<dtype::Quantized4Asymm>()
+                    .zero_point;
+    do_dispatch_reduce_filter_and_update_bias_4bit<true>(
+            reinterpret_cast<uint8_t*>(args.filter_tensor->raw_ptr),
+            args.bias_tensor->compatible_ptr<int32_t>(), co, ci * fh * fw / 8,
+            reinterpret_cast<int32_t*>(reordered_bias), workspace,
+            src_zero_point, stream);
+}
+#endif
+
+// vim: syntax=cpp.doxygen
diff --git a/dnn/src/cuda/conv_bias/int4/conv_bias_int4_implicit_gemm_cutlass_wrapper.cuinl b/dnn/src/cuda/conv_bias/int4/conv_bias_int4_implicit_gemm_cutlass_wrapper.cuinl
deleted file mode 120000
index e1100ca5..00000000
--- a/dnn/src/cuda/conv_bias/int4/conv_bias_int4_implicit_gemm_cutlass_wrapper.cuinl
+++ /dev/null
@@ -1 +0,0 @@
-../int8/conv_bias_int8_implicit_gemm_cutlass_wrapper.cuinl
\ No newline at end of file
diff --git a/dnn/src/cuda/conv_bias/int4/conv_bias_int4_implicit_gemm_cutlass_wrapper.cuinl b/dnn/src/cuda/conv_bias/int4/conv_bias_int4_implicit_gemm_cutlass_wrapper.cuinl
new file mode 100644
index 00000000..53da89de
--- /dev/null
+++ b/dnn/src/cuda/conv_bias/int4/conv_bias_int4_implicit_gemm_cutlass_wrapper.cuinl
@@ -0,0 +1,65 @@
+/**
+ * \file
+ * dnn/src/cuda/conv_bias/int4/conv_bias_int4_implicit_gemm_cutlass_wrapper.cuinl
+ * MegEngine is Licensed under the Apache License, Version 2.0 (the "License")
+ *
+ * Copyright (c) 2014-2021 Megvii Inc. All rights reserved.
+ *
+ * Unless required by applicable law or agreed to in writing,
+ * software distributed under the License is distributed on an
+ * "AS IS" BASIS, WITHOUT ARRANTIES OR CONDITIONS OF ANY KIND, either express or
+ * implied.
+ */
+#include "cutlass/convolution/device/convolution.h"
+#include "src/cuda/conv_bias/cutlass_convolution_wrapper.cuh"
+
+using namespace megdnn;
+using namespace cuda;
+using namespace cutlass_wrapper;
+
+template <typename Convolution>
+void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper(
+        const typename Convolution::ElementSrc* d_src,
+        const typename Convolution::ElementFilter* d_filter,
+        const typename Convolution::ElementBias* d_bias,
+        const typename Convolution::ElementDst* d_z,
+        typename Convolution::ElementDst* d_dst, int* workspace,
+        typename Convolution::ConvolutionParameter const& conv_param,
+        typename Convolution::EpilogueOutputOp::Params const& epilogue,
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param) {
+    typename Convolution::TensorRefSrc tensor_src{
+            const_cast<typename Convolution::ElementSrc*>(d_src),
+            Convolution::LayoutSrc::packed(
+                    {conv_param.N, conv_param.H, conv_param.W, conv_param.C})};
+    typename Convolution::TensorRefFilter tensor_filter{
+            const_cast<typename Convolution::ElementFilter*>(d_filter),
+            Convolution::LayoutFilter::packed(
+                    {conv_param.K, conv_param.R, conv_param.S, conv_param.C})};
+    typename Convolution::TensorRefBias tensor_bias{
+            const_cast<typename Convolution::ElementBias*>(d_bias),
+            Convolution::LayoutBias::packed({1, 1, 1, conv_param.K})};
+    typename Convolution::TensorRefDst tensor_z{
+            const_cast<typename Convolution::ElementDst*>(d_z),
+            Convolution::LayoutDst::packed(
+                    {conv_param.N, conv_param.P, conv_param.Q, conv_param.K})};
+    typename Convolution::TensorRefDst tensor_dst{
+            d_dst,
+            Convolution::LayoutDst::packed(
+                    {conv_param.N, conv_param.P, conv_param.Q, conv_param.K})};
+    typename Convolution::Arguments arguments{conv_param,
+                                              tensor_src.non_const_ref(),
+                                              tensor_filter.non_const_ref(),
+                                              tensor_bias.non_const_ref(),
+                                              tensor_z.non_const_ref(),
+                                              tensor_dst.non_const_ref(),
+                                              epilogue,
+                                              {},
+                                              {},
+                                              extra_param};
+    Convolution conv_op;
+    cutlass_check(conv_op.initialize(arguments, workspace));
+    cutlass_check(conv_op(stream));
+    after_kernel_launch();
+}
+
+// vim: syntax=cuda.doxygen
diff --git a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_hswish.cu b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_hswish.cu
index 9ab481d0..48e4a9d1 100644
--- a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_hswish.cu
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_id.cu b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_id.cu
index 3f93dbd9..9c816489 100644
--- a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_id.cu
+++ b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_id.cu
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_relu.cu b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_relu.cu
index 42a40453..aeb5f6fa 100644
--- a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_relu.cu
+++ b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_relu.cu
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_hswish.cu b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_hswish.cu
index 7580975a..5d7806f5 100644
--- a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_hswish.cu
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_id.cu b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_id.cu
index 59829dfb..4dd3266e 100644
--- a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_id.cu
+++ b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_id.cu
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_relu.cu b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_relu.cu
index c6f49065..06bfa049 100644
--- a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_relu.cu
+++ b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_int4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_relu.cu
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_hswish.cu b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_hswish.cu
new file mode 100644
index 00000000..c50997ef
--- /dev/null
+++ b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_hswish.cu
@@ -0,0 +1,36 @@
+#if !MEGDNN_TEGRA_X1
+// generated by gen_cuda_conv_bias_int4_kern_impls.py
+// ignore warning of cutlass
+#pragma GCC diagnostic push
+#pragma GCC diagnostic ignored "-Wunused-parameter"
+#pragma GCC diagnostic ignored "-Wstrict-aliasing"
+#include "src/cuda/conv_bias/int4/conv_bias_int4_implicit_gemm_cutlass_wrapper.cuinl"
+
+using LayoutSrc = cutlass::layout::TensorNCxHWx<64>;
+using LayoutFilter = cutlass::layout::TensorCxRSKx<64>;
+using LayoutDst = cutlass::layout::TensorNCxHWx<64>;
+using ThreadBlockShape = cutlass::gemm::GemmShape<128, 128, 128>;
+using WarpShape = cutlass::gemm::GemmShape<64, 64, 128>;
+using InstructionShape = cutlass::gemm::GemmShape<8, 8, 32>;
+using EpilogueOp = cutlass::epilogue::thread::BiasAddLinearCombinationHSwishClamp<
+                    cutlass::uint4b_t, 16, int32_t, int32_t, float>;
+using Convolution = cutlass::conv::device::Convolution<
+    cutlass::uint4b_t, LayoutSrc, cutlass::int4b_t, LayoutFilter, cutlass::uint4b_t, 
+    LayoutDst, int32_t, LayoutDst, int32_t, 
+    cutlass::conv::ConvType::kConvolution, cutlass::arch::OpClassTensorOp, cutlass::arch::Sm75, 
+    ThreadBlockShape, WarpShape, InstructionShape, EpilogueOp, 
+    cutlass::conv::threadblock::ConvolutionFpropNCxHWxThreadblockSwizzle, 
+    2, 32, 32, true, 
+    cutlass::arch::OpMultiplyAddSaturate>;
+template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolution>(
+        const typename Convolution::ElementSrc* d_src, 
+        const typename Convolution::ElementFilter* d_filter, 
+        const typename Convolution::ElementBias* d_bias, 
+        const typename Convolution::ElementDst* d_z, 
+        typename Convolution::ElementDst* d_dst, 
+        int* workspace, 
+        typename Convolution::ConvolutionParameter const& conv_param, 
+        typename Convolution::EpilogueOutputOp::Params const& epilogue, 
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
+#pragma GCC diagnostic pop
+#endif
diff --git a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_id.cu b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_id.cu
new file mode 100644
index 00000000..53b7468b
--- /dev/null
+++ b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_id.cu
@@ -0,0 +1,36 @@
+#if !MEGDNN_TEGRA_X1
+// generated by gen_cuda_conv_bias_int4_kern_impls.py
+// ignore warning of cutlass
+#pragma GCC diagnostic push
+#pragma GCC diagnostic ignored "-Wunused-parameter"
+#pragma GCC diagnostic ignored "-Wstrict-aliasing"
+#include "src/cuda/conv_bias/int4/conv_bias_int4_implicit_gemm_cutlass_wrapper.cuinl"
+
+using LayoutSrc = cutlass::layout::TensorNCxHWx<64>;
+using LayoutFilter = cutlass::layout::TensorCxRSKx<64>;
+using LayoutDst = cutlass::layout::TensorNCxHWx<64>;
+using ThreadBlockShape = cutlass::gemm::GemmShape<128, 128, 128>;
+using WarpShape = cutlass::gemm::GemmShape<64, 64, 128>;
+using InstructionShape = cutlass::gemm::GemmShape<8, 8, 32>;
+using EpilogueOp = cutlass::epilogue::thread::BiasAddLinearCombinationClamp<
+                    cutlass::uint4b_t, 16, int32_t, int32_t, float>;
+using Convolution = cutlass::conv::device::Convolution<
+    cutlass::uint4b_t, LayoutSrc, cutlass::int4b_t, LayoutFilter, cutlass::uint4b_t, 
+    LayoutDst, int32_t, LayoutDst, int32_t, 
+    cutlass::conv::ConvType::kConvolution, cutlass::arch::OpClassTensorOp, cutlass::arch::Sm75, 
+    ThreadBlockShape, WarpShape, InstructionShape, EpilogueOp, 
+    cutlass::conv::threadblock::ConvolutionFpropNCxHWxThreadblockSwizzle, 
+    2, 32, 32, true, 
+    cutlass::arch::OpMultiplyAddSaturate>;
+template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolution>(
+        const typename Convolution::ElementSrc* d_src, 
+        const typename Convolution::ElementFilter* d_filter, 
+        const typename Convolution::ElementBias* d_bias, 
+        const typename Convolution::ElementDst* d_z, 
+        typename Convolution::ElementDst* d_dst, 
+        int* workspace, 
+        typename Convolution::ConvolutionParameter const& conv_param, 
+        typename Convolution::EpilogueOutputOp::Params const& epilogue, 
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
+#pragma GCC diagnostic pop
+#endif
diff --git a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_relu.cu b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_relu.cu
new file mode 100644
index 00000000..84bcdacf
--- /dev/null
+++ b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_128x128x128_64x64x128_relu.cu
@@ -0,0 +1,36 @@
+#if !MEGDNN_TEGRA_X1
+// generated by gen_cuda_conv_bias_int4_kern_impls.py
+// ignore warning of cutlass
+#pragma GCC diagnostic push
+#pragma GCC diagnostic ignored "-Wunused-parameter"
+#pragma GCC diagnostic ignored "-Wstrict-aliasing"
+#include "src/cuda/conv_bias/int4/conv_bias_int4_implicit_gemm_cutlass_wrapper.cuinl"
+
+using LayoutSrc = cutlass::layout::TensorNCxHWx<64>;
+using LayoutFilter = cutlass::layout::TensorCxRSKx<64>;
+using LayoutDst = cutlass::layout::TensorNCxHWx<64>;
+using ThreadBlockShape = cutlass::gemm::GemmShape<128, 128, 128>;
+using WarpShape = cutlass::gemm::GemmShape<64, 64, 128>;
+using InstructionShape = cutlass::gemm::GemmShape<8, 8, 32>;
+using EpilogueOp = cutlass::epilogue::thread::BiasAddLinearCombinationReluClamp<
+                    cutlass::uint4b_t, 16, int32_t, int32_t, float>;
+using Convolution = cutlass::conv::device::Convolution<
+    cutlass::uint4b_t, LayoutSrc, cutlass::int4b_t, LayoutFilter, cutlass::uint4b_t, 
+    LayoutDst, int32_t, LayoutDst, int32_t, 
+    cutlass::conv::ConvType::kConvolution, cutlass::arch::OpClassTensorOp, cutlass::arch::Sm75, 
+    ThreadBlockShape, WarpShape, InstructionShape, EpilogueOp, 
+    cutlass::conv::threadblock::ConvolutionFpropNCxHWxThreadblockSwizzle, 
+    2, 32, 32, true, 
+    cutlass::arch::OpMultiplyAddSaturate>;
+template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolution>(
+        const typename Convolution::ElementSrc* d_src, 
+        const typename Convolution::ElementFilter* d_filter, 
+        const typename Convolution::ElementBias* d_bias, 
+        const typename Convolution::ElementDst* d_z, 
+        typename Convolution::ElementDst* d_dst, 
+        int* workspace, 
+        typename Convolution::ConvolutionParameter const& conv_param, 
+        typename Convolution::EpilogueOutputOp::Params const& epilogue, 
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
+#pragma GCC diagnostic pop
+#endif
diff --git a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_hswish.cu b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_hswish.cu
new file mode 100644
index 00000000..52d2af3f
--- /dev/null
+++ b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_hswish.cu
@@ -0,0 +1,36 @@
+#if !MEGDNN_TEGRA_X1
+// generated by gen_cuda_conv_bias_int4_kern_impls.py
+// ignore warning of cutlass
+#pragma GCC diagnostic push
+#pragma GCC diagnostic ignored "-Wunused-parameter"
+#pragma GCC diagnostic ignored "-Wstrict-aliasing"
+#include "src/cuda/conv_bias/int4/conv_bias_int4_implicit_gemm_cutlass_wrapper.cuinl"
+
+using LayoutSrc = cutlass::layout::TensorNCxHWx<64>;
+using LayoutFilter = cutlass::layout::TensorCxRSKx<64>;
+using LayoutDst = cutlass::layout::TensorNCxHWx<64>;
+using ThreadBlockShape = cutlass::gemm::GemmShape<256, 128, 128>;
+using WarpShape = cutlass::gemm::GemmShape<64, 64, 128>;
+using InstructionShape = cutlass::gemm::GemmShape<8, 8, 32>;
+using EpilogueOp = cutlass::epilogue::thread::BiasAddLinearCombinationHSwishClamp<
+                    cutlass::uint4b_t, 16, int32_t, int32_t, float>;
+using Convolution = cutlass::conv::device::Convolution<
+    cutlass::uint4b_t, LayoutSrc, cutlass::int4b_t, LayoutFilter, cutlass::uint4b_t, 
+    LayoutDst, int32_t, LayoutDst, int32_t, 
+    cutlass::conv::ConvType::kConvolution, cutlass::arch::OpClassTensorOp, cutlass::arch::Sm75, 
+    ThreadBlockShape, WarpShape, InstructionShape, EpilogueOp, 
+    cutlass::conv::threadblock::ConvolutionFpropNCxHWxThreadblockSwizzle, 
+    2, 32, 32, true, 
+    cutlass::arch::OpMultiplyAddSaturate>;
+template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolution>(
+        const typename Convolution::ElementSrc* d_src, 
+        const typename Convolution::ElementFilter* d_filter, 
+        const typename Convolution::ElementBias* d_bias, 
+        const typename Convolution::ElementDst* d_z, 
+        typename Convolution::ElementDst* d_dst, 
+        int* workspace, 
+        typename Convolution::ConvolutionParameter const& conv_param, 
+        typename Convolution::EpilogueOutputOp::Params const& epilogue, 
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
+#pragma GCC diagnostic pop
+#endif
diff --git a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_id.cu b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_id.cu
new file mode 100644
index 00000000..e60c5c2b
--- /dev/null
+++ b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_id.cu
@@ -0,0 +1,36 @@
+#if !MEGDNN_TEGRA_X1
+// generated by gen_cuda_conv_bias_int4_kern_impls.py
+// ignore warning of cutlass
+#pragma GCC diagnostic push
+#pragma GCC diagnostic ignored "-Wunused-parameter"
+#pragma GCC diagnostic ignored "-Wstrict-aliasing"
+#include "src/cuda/conv_bias/int4/conv_bias_int4_implicit_gemm_cutlass_wrapper.cuinl"
+
+using LayoutSrc = cutlass::layout::TensorNCxHWx<64>;
+using LayoutFilter = cutlass::layout::TensorCxRSKx<64>;
+using LayoutDst = cutlass::layout::TensorNCxHWx<64>;
+using ThreadBlockShape = cutlass::gemm::GemmShape<256, 128, 128>;
+using WarpShape = cutlass::gemm::GemmShape<64, 64, 128>;
+using InstructionShape = cutlass::gemm::GemmShape<8, 8, 32>;
+using EpilogueOp = cutlass::epilogue::thread::BiasAddLinearCombinationClamp<
+                    cutlass::uint4b_t, 16, int32_t, int32_t, float>;
+using Convolution = cutlass::conv::device::Convolution<
+    cutlass::uint4b_t, LayoutSrc, cutlass::int4b_t, LayoutFilter, cutlass::uint4b_t, 
+    LayoutDst, int32_t, LayoutDst, int32_t, 
+    cutlass::conv::ConvType::kConvolution, cutlass::arch::OpClassTensorOp, cutlass::arch::Sm75, 
+    ThreadBlockShape, WarpShape, InstructionShape, EpilogueOp, 
+    cutlass::conv::threadblock::ConvolutionFpropNCxHWxThreadblockSwizzle, 
+    2, 32, 32, true, 
+    cutlass::arch::OpMultiplyAddSaturate>;
+template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolution>(
+        const typename Convolution::ElementSrc* d_src, 
+        const typename Convolution::ElementFilter* d_filter, 
+        const typename Convolution::ElementBias* d_bias, 
+        const typename Convolution::ElementDst* d_z, 
+        typename Convolution::ElementDst* d_dst, 
+        int* workspace, 
+        typename Convolution::ConvolutionParameter const& conv_param, 
+        typename Convolution::EpilogueOutputOp::Params const& epilogue, 
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
+#pragma GCC diagnostic pop
+#endif
diff --git a/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_relu.cu b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_relu.cu
new file mode 100644
index 00000000..b8fb14c6
--- /dev/null
+++ b/dnn/src/cuda/conv_bias/int4/kimpl/conv_bias_uint4_int4_implicit_gemm_imma_ncdiv64hw64_256x128x128_64x64x128_relu.cu
@@ -0,0 +1,36 @@
+#if !MEGDNN_TEGRA_X1
+// generated by gen_cuda_conv_bias_int4_kern_impls.py
+// ignore warning of cutlass
+#pragma GCC diagnostic push
+#pragma GCC diagnostic ignored "-Wunused-parameter"
+#pragma GCC diagnostic ignored "-Wstrict-aliasing"
+#include "src/cuda/conv_bias/int4/conv_bias_int4_implicit_gemm_cutlass_wrapper.cuinl"
+
+using LayoutSrc = cutlass::layout::TensorNCxHWx<64>;
+using LayoutFilter = cutlass::layout::TensorCxRSKx<64>;
+using LayoutDst = cutlass::layout::TensorNCxHWx<64>;
+using ThreadBlockShape = cutlass::gemm::GemmShape<256, 128, 128>;
+using WarpShape = cutlass::gemm::GemmShape<64, 64, 128>;
+using InstructionShape = cutlass::gemm::GemmShape<8, 8, 32>;
+using EpilogueOp = cutlass::epilogue::thread::BiasAddLinearCombinationReluClamp<
+                    cutlass::uint4b_t, 16, int32_t, int32_t, float>;
+using Convolution = cutlass::conv::device::Convolution<
+    cutlass::uint4b_t, LayoutSrc, cutlass::int4b_t, LayoutFilter, cutlass::uint4b_t, 
+    LayoutDst, int32_t, LayoutDst, int32_t, 
+    cutlass::conv::ConvType::kConvolution, cutlass::arch::OpClassTensorOp, cutlass::arch::Sm75, 
+    ThreadBlockShape, WarpShape, InstructionShape, EpilogueOp, 
+    cutlass::conv::threadblock::ConvolutionFpropNCxHWxThreadblockSwizzle, 
+    2, 32, 32, true, 
+    cutlass::arch::OpMultiplyAddSaturate>;
+template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolution>(
+        const typename Convolution::ElementSrc* d_src, 
+        const typename Convolution::ElementFilter* d_filter, 
+        const typename Convolution::ElementBias* d_bias, 
+        const typename Convolution::ElementDst* d_z, 
+        typename Convolution::ElementDst* d_dst, 
+        int* workspace, 
+        typename Convolution::ConvolutionParameter const& conv_param, 
+        typename Convolution::EpilogueOutputOp::Params const& epilogue, 
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
+#pragma GCC diagnostic pop
+#endif
diff --git a/dnn/src/cuda/conv_bias/int8/conv_bias_int8_implicit_gemm_cutlass_wrapper.cuinl b/dnn/src/cuda/conv_bias/int8/conv_bias_int8_implicit_gemm_cutlass_wrapper.cuinl
index cf20f616..9f09ce41 100644
--- a/dnn/src/cuda/conv_bias/int8/conv_bias_int8_implicit_gemm_cutlass_wrapper.cuinl
+++ b/dnn/src/cuda/conv_bias/int8/conv_bias_int8_implicit_gemm_cutlass_wrapper.cuinl
@@ -26,7 +26,7 @@ void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper(
         typename Convolution::ElementDst* d_dst, int* workspace,
         typename Convolution::ConvolutionParameter const& conv_param,
         typename Convolution::EpilogueOutputOp::Params const& epilogue,
-        cudaStream_t stream) {
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param) {
     typename Convolution::TensorRefSrc tensor_src{
             const_cast<typename Convolution::ElementSrc*>(d_src),
             Convolution::LayoutSrc::packed(
@@ -52,7 +52,10 @@ void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper(
                                               tensor_bias.non_const_ref(),
                                               tensor_z.non_const_ref(),
                                               tensor_dst.non_const_ref(),
-                                              epilogue};
+                                              epilogue,
+                                              {},
+                                              {},
+                                              extra_param};
     Convolution conv_op;
     cutlass_check(conv_op.initialize(arguments, workspace));
     cutlass_check(conv_op(stream));
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x128x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x128x32_64x32x32_hswish.cu
index aede9980..0e75dbb0 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x128x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x128x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x128x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x128x32_64x32x32_id.cu
index 57f38b13..1f0964a6 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x128x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x128x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x128x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x128x32_64x32x32_relu.cu
index a73b75fa..8c863797 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x128x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x128x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x32x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x32x32_64x32x32_hswish.cu
index 4121d19a..884b223d 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x32x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x32x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x32x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x32x32_64x32x32_id.cu
index ebc98a40..9417807b 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x32x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x32x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x32x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x32x32_64x32x32_relu.cu
index c70ca160..4c9c078f 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x32x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x32x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x64x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x64x32_64x32x32_hswish.cu
index 9fbad0d3..44f03fc7 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x64x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x64x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x64x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x64x32_64x32x32_id.cu
index 9fd33cba..cc6bc57d 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x64x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x64x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x64x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x64x32_64x32x32_relu.cu
index 8d5cc67a..3d8d2b25 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x64x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_128x64x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x128x16_16x128x16_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x128x16_16x128x16_hswish.cu
index 820c9757..84aecf21 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x128x16_16x128x16_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x128x16_16x128x16_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x128x16_16x128x16_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x128x16_16x128x16_id.cu
index f3d1a463..d728429c 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x128x16_16x128x16_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x128x16_16x128x16_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x128x16_16x128x16_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x128x16_16x128x16_relu.cu
index 7f35a20c..0c8787cf 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x128x16_16x128x16_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x128x16_16x128x16_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x64x8_16x64x8_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x64x8_16x64x8_hswish.cu
index a952578d..9bc617b8 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x64x8_16x64x8_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x64x8_16x64x8_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x64x8_16x64x8_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x64x8_16x64x8_id.cu
index da9f4985..fdf8e40d 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x64x8_16x64x8_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x64x8_16x64x8_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x64x8_16x64x8_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x64x8_16x64x8_relu.cu
index 065b7042..4318b3e6 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x64x8_16x64x8_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_16x64x8_16x64x8_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x128x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x128x32_64x32x32_hswish.cu
index 2b3a319b..b8226d0a 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x128x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x128x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x128x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x128x32_64x32x32_id.cu
index 187f7b96..6f163b84 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x128x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x128x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x128x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x128x32_64x32x32_relu.cu
index 712822ff..3c68f0b8 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x128x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x128x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x32x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x32x32_64x32x32_hswish.cu
index 4d7d9337..f1716786 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x32x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x32x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x32x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x32x32_64x32x32_id.cu
index aeafaf15..bff1157f 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x32x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x32x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x32x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x32x32_64x32x32_relu.cu
index 9d41256d..5ebb19e6 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x32x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x32x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x64x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x64x32_64x32x32_hswish.cu
index 66a31a7f..a500504a 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x64x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x64x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x64x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x64x32_64x32x32_id.cu
index ca0cf04c..77ee9d81 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x64x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x64x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x64x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x64x32_64x32x32_relu.cu
index f871dae4..017aa325 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x64x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_128x64x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x128x16_16x128x16_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x128x16_16x128x16_hswish.cu
index 725fed7f..2dc54353 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x128x16_16x128x16_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x128x16_16x128x16_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x128x16_16x128x16_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x128x16_16x128x16_id.cu
index e7688245..cfd9b9e4 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x128x16_16x128x16_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x128x16_16x128x16_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x128x16_16x128x16_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x128x16_16x128x16_relu.cu
index 100c4861..c488e18e 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x128x16_16x128x16_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x128x16_16x128x16_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x64x8_16x64x8_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x64x8_16x64x8_hswish.cu
index aa5ecf00..b669dda4 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x64x8_16x64x8_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x64x8_16x64x8_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x64x8_16x64x8_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x64x8_16x64x8_id.cu
index 0a1c1d3a..831bea3b 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x64x8_16x64x8_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x64x8_16x64x8_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x64x8_16x64x8_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x64x8_16x64x8_relu.cu
index a61a466a..d6973c59 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x64x8_16x64x8_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_16x64x8_16x64x8_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x128x32_32x64x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x128x32_32x64x32_hswish.cu
index 8ac06afb..2285e888 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x128x32_32x64x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x128x32_32x64x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x128x32_32x64x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x128x32_32x64x32_id.cu
index 7237f2de..61c67deb 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x128x32_32x64x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x128x32_32x64x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x128x32_32x64x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x128x32_32x64x32_relu.cu
index a672e749..25a94bc2 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x128x32_32x64x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x128x32_32x64x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x32x32_32x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x32x32_32x32x32_hswish.cu
index 27ad631e..5b98df43 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x32x32_32x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x32x32_32x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x32x32_32x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x32x32_32x32x32_id.cu
index ddc61a51..3621b7a8 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x32x32_32x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x32x32_32x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x32x32_32x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x32x32_32x32x32_relu.cu
index c5aaec6f..720777eb 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x32x32_32x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x32x32_32x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x64x32_32x64x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x64x32_32x64x32_hswish.cu
index a5d437a2..ff6434d4 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x64x32_32x64x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x64x32_32x64x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x64x32_32x64x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x64x32_32x64x32_id.cu
index d16c179b..07c160fc 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x64x32_32x64x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x64x32_32x64x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x64x32_32x64x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x64x32_32x64x32_relu.cu
index e5968cf5..498a7283 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x64x32_32x64x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_32x64x32_32x64x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x128x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x128x32_64x32x32_hswish.cu
index 61faa3e5..63e92801 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x128x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x128x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x128x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x128x32_64x32x32_id.cu
index b5177e01..b0b3b77a 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x128x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x128x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x128x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x128x32_64x32x32_relu.cu
index 6e89d753..f9c71c46 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x128x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x128x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x32x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x32x32_64x32x32_hswish.cu
index 79d9c0f8..792a7eca 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x32x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x32x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x32x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x32x32_64x32x32_id.cu
index cc5c0026..8ae05467 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x32x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x32x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x32x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x32x32_64x32x32_relu.cu
index 3a71ccf0..e476dff9 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x32x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x32x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x64x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x64x32_64x32x32_hswish.cu
index de8806d6..f35955c3 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x64x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x64x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x64x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x64x32_64x32x32_id.cu
index b5e3a342..99e7e1e1 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x64x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x64x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x64x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x64x32_64x32x32_relu.cu
index 2243305e..30dd3c80 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x64x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_1x1_64x64x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x128x32_32x64x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x128x32_32x64x32_hswish.cu
index 6110868b..5ca19b2b 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x128x32_32x64x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x128x32_32x64x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x128x32_32x64x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x128x32_32x64x32_id.cu
index 0e5c018e..85a5439c 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x128x32_32x64x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x128x32_32x64x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x128x32_32x64x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x128x32_32x64x32_relu.cu
index 33d950ec..62df010e 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x128x32_32x64x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x128x32_32x64x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x32x32_32x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x32x32_32x32x32_hswish.cu
index 012b70b0..b12d59ab 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x32x32_32x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x32x32_32x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x32x32_32x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x32x32_32x32x32_id.cu
index aff240c4..d64826a4 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x32x32_32x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x32x32_32x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x32x32_32x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x32x32_32x32x32_relu.cu
index c101cd36..9065b5ba 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x32x32_32x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x32x32_32x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x64x32_32x64x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x64x32_32x64x32_hswish.cu
index 487a06fb..f603e437 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x64x32_32x64x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x64x32_32x64x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x64x32_32x64x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x64x32_32x64x32_id.cu
index 450fd723..242482b6 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x64x32_32x64x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x64x32_32x64x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x64x32_32x64x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x64x32_32x64x32_relu.cu
index efc249c2..e7ff951a 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x64x32_32x64x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_32x64x32_32x64x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x128x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x128x32_64x32x32_hswish.cu
index 8503592d..e2a47021 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x128x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x128x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x128x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x128x32_64x32x32_id.cu
index 2d9f42b0..ad33ba83 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x128x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x128x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x128x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x128x32_64x32x32_relu.cu
index d1cbc3ce..428058f3 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x128x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x128x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x32x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x32x32_64x32x32_hswish.cu
index 5c473b18..3f4143f4 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x32x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x32x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x32x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x32x32_64x32x32_id.cu
index 31a15cc7..34a8fde7 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x32x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x32x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x32x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x32x32_64x32x32_relu.cu
index fc86fa43..d8b728d9 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x32x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x32x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x64x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x64x32_64x32x32_hswish.cu
index 2f66a3b3..3f98d1aa 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x64x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x64x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x64x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x64x32_64x32x32_id.cu
index 7da1dd3f..81be8849 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x64x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x64x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x64x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x64x32_64x32x32_relu.cu
index 199c133d..dc1db719 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x64x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_64x64x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x128x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x128x32_64x32x32_hswish.cu
index b17a6420..2ac836cc 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x128x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x128x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x128x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x128x32_64x32x32_id.cu
index af4824b2..68eed12c 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x128x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x128x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x128x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x128x32_64x32x32_relu.cu
index 5d99e6fa..ffb51a6e 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x128x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x128x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x32x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x32x32_64x32x32_hswish.cu
index c854ef86..d22b597b 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x32x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x32x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x32x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x32x32_64x32x32_id.cu
index 1eb4a3aa..470218e3 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x32x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x32x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x32x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x32x32_64x32x32_relu.cu
index c56b0b48..a3ce8d7f 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x32x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x32x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x64x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x64x32_64x32x32_hswish.cu
index d07b72e9..22772a46 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x64x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x64x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x64x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x64x32_64x32x32_id.cu
index c9e2b449..e8906c50 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x64x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x64x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x64x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x64x32_64x32x32_relu.cu
index 18c8cea8..86f615e6 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x64x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_128x64x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x128x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x128x32_64x32x32_hswish.cu
index 8f074563..8c114eff 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x128x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x128x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x128x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x128x32_64x32x32_id.cu
index b7f76e68..2224882d 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x128x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x128x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x128x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x128x32_64x32x32_relu.cu
index ae4ce865..f2dab49c 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x128x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x128x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x32x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x32x32_64x32x32_hswish.cu
index 670b6403..4f48340b 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x32x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x32x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x32x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x32x32_64x32x32_id.cu
index 5a85818a..1a8f6edf 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x32x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x32x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x32x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x32x32_64x32x32_relu.cu
index 18b743fc..b455d1ab 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x32x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x32x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x64x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x64x32_64x32x32_hswish.cu
index 0d5fdc72..0fe44eb4 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x64x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x64x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x64x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x64x32_64x32x32_id.cu
index b0f4bd6f..5a465659 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x64x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x64x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x64x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x64x32_64x32x32_relu.cu
index f2ee1cdc..9f61f9eb 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x64x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_128x64x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x128x32_32x64x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x128x32_32x64x32_hswish.cu
index 157cd07b..7318ddb7 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x128x32_32x64x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x128x32_32x64x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x128x32_32x64x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x128x32_32x64x32_id.cu
index eb93fa6c..88136113 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x128x32_32x64x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x128x32_32x64x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x128x32_32x64x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x128x32_32x64x32_relu.cu
index 3d478931..fc25ebb9 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x128x32_32x64x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x128x32_32x64x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x32x32_32x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x32x32_32x32x32_hswish.cu
index 99f335be..dd295018 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x32x32_32x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x32x32_32x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x32x32_32x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x32x32_32x32x32_id.cu
index 643f43ca..e4c60065 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x32x32_32x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x32x32_32x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x32x32_32x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x32x32_32x32x32_relu.cu
index 18ba41d9..bd7a96f2 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x32x32_32x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x32x32_32x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x64x32_32x64x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x64x32_32x64x32_hswish.cu
index b84d3f0b..e6beadd8 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x64x32_32x64x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x64x32_32x64x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x64x32_32x64x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x64x32_32x64x32_id.cu
index 83482b72..492bf450 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x64x32_32x64x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x64x32_32x64x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x64x32_32x64x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x64x32_32x64x32_relu.cu
index f66b7b28..cfd7a0aa 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x64x32_32x64x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_32x64x32_32x64x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x128x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x128x32_64x32x32_hswish.cu
index 6ba333db..39e5d9c9 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x128x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x128x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x128x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x128x32_64x32x32_id.cu
index 9fd0f3e9..f01634b6 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x128x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x128x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x128x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x128x32_64x32x32_relu.cu
index 936502d6..8f5f0c2d 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x128x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x128x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x32x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x32x32_64x32x32_hswish.cu
index f3f4977a..f45de4c4 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x32x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x32x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x32x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x32x32_64x32x32_id.cu
index dfe25c57..24cfced8 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x32x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x32x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x32x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x32x32_64x32x32_relu.cu
index 1d341e09..e4b0d5cc 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x32x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x32x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x64x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x64x32_64x32x32_hswish.cu
index ca51165e..94766f7e 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x64x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x64x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x64x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x64x32_64x32x32_id.cu
index eb0fcc2c..ba550f8a 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x64x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x64x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x64x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x64x32_64x32x32_relu.cu
index ebd3b131..f2b1621f 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x64x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_1x1_64x64x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x128x32_32x64x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x128x32_32x64x32_hswish.cu
index c10268e6..a25e67b8 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x128x32_32x64x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x128x32_32x64x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x128x32_32x64x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x128x32_32x64x32_id.cu
index 258c39ba..95126f54 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x128x32_32x64x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x128x32_32x64x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x128x32_32x64x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x128x32_32x64x32_relu.cu
index 475b3585..5e1b4ae7 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x128x32_32x64x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x128x32_32x64x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x32x32_32x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x32x32_32x32x32_hswish.cu
index e178f8b2..7d7527c1 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x32x32_32x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x32x32_32x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x32x32_32x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x32x32_32x32x32_id.cu
index 33ab3378..d99f581d 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x32x32_32x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x32x32_32x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x32x32_32x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x32x32_32x32x32_relu.cu
index 9149da9e..402f9289 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x32x32_32x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x32x32_32x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x64x32_32x64x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x64x32_32x64x32_hswish.cu
index 447d3c9e..1afc7d37 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x64x32_32x64x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x64x32_32x64x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x64x32_32x64x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x64x32_32x64x32_id.cu
index aad75d8a..0e04d074 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x64x32_32x64x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x64x32_32x64x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x64x32_32x64x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x64x32_32x64x32_relu.cu
index c70fcadf..de4c6c96 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x64x32_32x64x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_32x64x32_32x64x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x128x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x128x32_64x32x32_hswish.cu
index 88d1ec1b..e5152ee1 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x128x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x128x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x128x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x128x32_64x32x32_id.cu
index b414833f..785089c5 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x128x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x128x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x128x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x128x32_64x32x32_relu.cu
index aa3ee9cb..f37ee01a 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x128x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x128x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x32x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x32x32_64x32x32_hswish.cu
index b8a5f973..1bf6bdc4 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x32x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x32x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x32x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x32x32_64x32x32_id.cu
index 45d4a9c1..969c6abd 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x32x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x32x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x32x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x32x32_64x32x32_relu.cu
index 736fa4a1..81e721ed 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x32x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x32x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x64x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x64x32_64x32x32_hswish.cu
index afb78f94..dadbe768 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x64x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x64x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x64x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x64x32_64x32x32_id.cu
index 20cd8530..41708fe8 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x64x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x64x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x64x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x64x32_64x32x32_relu.cu
index c4d2fc3c..f40ec82f 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x64x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_ncdiv32hw32_64x64x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x128x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x128x32_64x32x32_hswish.cu
index 889ded1a..8e59bc1f 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x128x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x128x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x128x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x128x32_64x32x32_id.cu
index c7e9abba..81bcc852 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x128x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x128x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x128x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x128x32_64x32x32_relu.cu
index e0e825fa..46b7f0bd 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x128x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x128x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x32x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x32x32_64x32x32_hswish.cu
index 52c3111b..dfd3fca3 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x32x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x32x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x32x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x32x32_64x32x32_id.cu
index 5ba1e043..d16971b9 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x32x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x32x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x32x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x32x32_64x32x32_relu.cu
index 2c66f76a..0c4b2e33 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x32x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x32x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x64x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x64x32_64x32x32_hswish.cu
index bec858a1..acf35eb5 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x64x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x64x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x64x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x64x32_64x32x32_id.cu
index cd029a0c..5de1891f 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x64x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x64x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x64x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x64x32_64x32x32_relu.cu
index 38dc02c2..d5feb6b6 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x64x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_128x64x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x128x16_16x128x16_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x128x16_16x128x16_hswish.cu
index 7c3d5532..32419ff0 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x128x16_16x128x16_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x128x16_16x128x16_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x128x16_16x128x16_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x128x16_16x128x16_id.cu
index af59cd30..89f0c797 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x128x16_16x128x16_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x128x16_16x128x16_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x128x16_16x128x16_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x128x16_16x128x16_relu.cu
index 0b447b2b..1842df45 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x128x16_16x128x16_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x128x16_16x128x16_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x64x8_16x64x8_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x64x8_16x64x8_hswish.cu
index d8832567..d38226ec 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x64x8_16x64x8_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x64x8_16x64x8_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x64x8_16x64x8_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x64x8_16x64x8_id.cu
index 9c5f1ec0..110cf890 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x64x8_16x64x8_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x64x8_16x64x8_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x64x8_16x64x8_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x64x8_16x64x8_relu.cu
index 86d700c6..c9e3c262 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x64x8_16x64x8_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_16x64x8_16x64x8_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x128x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x128x32_64x32x32_hswish.cu
index 63e1b138..02359e41 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x128x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x128x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x128x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x128x32_64x32x32_id.cu
index 5a83822c..e09dab8c 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x128x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x128x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x128x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x128x32_64x32x32_relu.cu
index ad0340f1..20c5ab71 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x128x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x128x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x32x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x32x32_64x32x32_hswish.cu
index 3bed635e..a886598c 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x32x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x32x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x32x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x32x32_64x32x32_id.cu
index 69d3d131..24734b61 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x32x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x32x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x32x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x32x32_64x32x32_relu.cu
index 316a3072..068a3483 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x32x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x32x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x64x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x64x32_64x32x32_hswish.cu
index 1070d213..ccc3e424 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x64x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x64x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x64x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x64x32_64x32x32_id.cu
index 7b591fa4..cc83c6f6 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x64x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x64x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x64x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x64x32_64x32x32_relu.cu
index 4c7bcb84..6e6e2b47 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x64x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_128x64x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x128x16_16x128x16_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x128x16_16x128x16_hswish.cu
index 080c3222..55eb7570 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x128x16_16x128x16_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x128x16_16x128x16_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x128x16_16x128x16_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x128x16_16x128x16_id.cu
index 8b82f9a8..a95fa4dd 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x128x16_16x128x16_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x128x16_16x128x16_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x128x16_16x128x16_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x128x16_16x128x16_relu.cu
index cdcd6b85..38b55080 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x128x16_16x128x16_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x128x16_16x128x16_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x64x8_16x64x8_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x64x8_16x64x8_hswish.cu
index 5c8ee549..28e04a6c 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x64x8_16x64x8_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x64x8_16x64x8_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x64x8_16x64x8_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x64x8_16x64x8_id.cu
index 10bb5915..eb20b124 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x64x8_16x64x8_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x64x8_16x64x8_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x64x8_16x64x8_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x64x8_16x64x8_relu.cu
index 6a46eeac..fe078673 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x64x8_16x64x8_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_16x64x8_16x64x8_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x128x32_32x64x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x128x32_32x64x32_hswish.cu
index 90534a18..3920d3d0 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x128x32_32x64x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x128x32_32x64x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x128x32_32x64x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x128x32_32x64x32_id.cu
index 9eb74ad1..42094592 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x128x32_32x64x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x128x32_32x64x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x128x32_32x64x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x128x32_32x64x32_relu.cu
index d470b22e..8eb832ba 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x128x32_32x64x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x128x32_32x64x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x32x32_32x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x32x32_32x32x32_hswish.cu
index 6b394e11..75cc5260 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x32x32_32x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x32x32_32x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x32x32_32x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x32x32_32x32x32_id.cu
index 652cea88..50d7a493 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x32x32_32x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x32x32_32x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x32x32_32x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x32x32_32x32x32_relu.cu
index 5fc01557..7736c506 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x32x32_32x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x32x32_32x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x64x32_32x64x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x64x32_32x64x32_hswish.cu
index 9d743b45..aa1b8f53 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x64x32_32x64x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x64x32_32x64x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x64x32_32x64x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x64x32_32x64x32_id.cu
index 0921c3e9..060148d2 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x64x32_32x64x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x64x32_32x64x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x64x32_32x64x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x64x32_32x64x32_relu.cu
index a9c8dd40..719de8b9 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x64x32_32x64x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_32x64x32_32x64x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x128x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x128x32_64x32x32_hswish.cu
index 23443ee2..8fd2174e 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x128x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x128x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x128x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x128x32_64x32x32_id.cu
index ac202d09..5bee93f7 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x128x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x128x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x128x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x128x32_64x32x32_relu.cu
index ce911fc9..ee9f02bd 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x128x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x128x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x32x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x32x32_64x32x32_hswish.cu
index 1d2b47d2..589e7cc9 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x32x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x32x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x32x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x32x32_64x32x32_id.cu
index d38622ac..72f32c43 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x32x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x32x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x32x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x32x32_64x32x32_relu.cu
index 3845f7fa..ed025e10 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x32x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x32x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x64x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x64x32_64x32x32_hswish.cu
index 2948cbbc..f982327e 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x64x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x64x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x64x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x64x32_64x32x32_id.cu
index 0f75f986..1e8dd6e2 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x64x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x64x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x64x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x64x32_64x32x32_relu.cu
index 4aa41a48..8c2e92ec 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x64x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_1x1_64x64x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x128x32_32x64x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x128x32_32x64x32_hswish.cu
index 3a21872a..ef5a7283 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x128x32_32x64x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x128x32_32x64x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x128x32_32x64x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x128x32_32x64x32_id.cu
index 86e0bfb5..5b5975e2 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x128x32_32x64x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x128x32_32x64x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x128x32_32x64x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x128x32_32x64x32_relu.cu
index 265d639c..f9d8b8dd 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x128x32_32x64x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x128x32_32x64x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x32x32_32x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x32x32_32x32x32_hswish.cu
index da540ae8..a24d15e1 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x32x32_32x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x32x32_32x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x32x32_32x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x32x32_32x32x32_id.cu
index 74c608a8..e9dc83e2 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x32x32_32x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x32x32_32x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x32x32_32x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x32x32_32x32x32_relu.cu
index c8e8d915..7d9fa9d6 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x32x32_32x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x32x32_32x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x64x32_32x64x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x64x32_32x64x32_hswish.cu
index 0dca550d..4c29ade6 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x64x32_32x64x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x64x32_32x64x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x64x32_32x64x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x64x32_32x64x32_id.cu
index 989d5592..18b67eb9 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x64x32_32x64x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x64x32_32x64x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x64x32_32x64x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x64x32_32x64x32_relu.cu
index 684e5777..23df9001 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x64x32_32x64x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_32x64x32_32x64x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x128x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x128x32_64x32x32_hswish.cu
index 0d47d1cd..c28bce2e 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x128x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x128x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x128x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x128x32_64x32x32_id.cu
index d8927fbb..18d790d3 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x128x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x128x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x128x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x128x32_64x32x32_relu.cu
index 5115a05b..fe8a8eab 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x128x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x128x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x32x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x32x32_64x32x32_hswish.cu
index d448a3e6..791f2644 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x32x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x32x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x32x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x32x32_64x32x32_id.cu
index 8e71d8ca..a0cb8ba6 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x32x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x32x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x32x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x32x32_64x32x32_relu.cu
index d09c6171..1fbebd0d 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x32x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x32x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x64x32_64x32x32_hswish.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x64x32_64x32x32_hswish.cu
index 7aad8acb..a1658f73 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x64x32_64x32x32_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x64x32_64x32x32_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x64x32_64x32x32_id.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x64x32_64x32x32_id.cu
index 3774df1a..1cb1f1cc 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x64x32_64x32x32_id.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x64x32_64x32x32_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x64x32_64x32x32_relu.cu b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x64x32_64x32x32_relu.cu
index e23ea6f5..52045ba4 100644
--- a/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x64x32_64x32x32_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8/kimpl/conv_bias_int8_implicit_gemm_dp4a_ncdiv4hw4_nchw_64x64x32_64x32x32_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x128x64_64x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x128x64_64x64x64_hswish.cu
index b5817415..782717f5 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x128x64_64x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x128x64_64x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x128x64_64x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x128x64_64x64x64_id.cu
index 7a0612f8..82beee09 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x128x64_64x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x128x64_64x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x128x64_64x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x128x64_64x64x64_relu.cu
index cedd1f1b..daad306d 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x128x64_64x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x128x64_64x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x256x64_64x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x256x64_64x64x64_hswish.cu
index d68997d0..0f33a6ea 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x256x64_64x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x256x64_64x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x256x64_64x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x256x64_64x64x64_id.cu
index d707e5f7..0c941294 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x256x64_64x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x256x64_64x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x256x64_64x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x256x64_64x64x64_relu.cu
index 0eb96352..8ebe8a25 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x256x64_64x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x256x64_64x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x64x64_64x32x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x64x64_64x32x64_hswish.cu
index 3dcf0497..d5e3ff9e 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x64x64_64x32x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x64x64_64x32x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x64x64_64x32x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x64x64_64x32x64_id.cu
index e9dc07cc..3b5ca9cf 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x64x64_64x32x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x64x64_64x32x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x64x64_64x32x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x64x64_64x32x64_relu.cu
index c5653626..04b23694 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x64x64_64x32x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_128x64x64_64x32x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x128x64_64x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x128x64_64x64x64_hswish.cu
index f51466f5..fe3a0ecd 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x128x64_64x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x128x64_64x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x128x64_64x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x128x64_64x64x64_id.cu
index 7ae41fd2..50ce1717 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x128x64_64x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x128x64_64x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x128x64_64x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x128x64_64x64x64_relu.cu
index 7e28c5bd..af2c603c 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x128x64_64x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x128x64_64x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x256x64_64x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x256x64_64x64x64_hswish.cu
index bc75f547..b3856194 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x256x64_64x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x256x64_64x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x256x64_64x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x256x64_64x64x64_id.cu
index caeaba01..c3ae319f 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x256x64_64x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x256x64_64x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x256x64_64x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x256x64_64x64x64_relu.cu
index af6c2a3c..0c2aeef1 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x256x64_64x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x256x64_64x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x64x64_64x32x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x64x64_64x32x64_hswish.cu
index 32294cd5..5d763bf7 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x64x64_64x32x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x64x64_64x32x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x64x64_64x32x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x64x64_64x32x64_id.cu
index 34f00363..55b4bf1a 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x64x64_64x32x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x64x64_64x32x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x64x64_64x32x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x64x64_64x32x64_relu.cu
index eea42928..a2324d7e 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x64x64_64x32x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_128x64x64_64x32x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_256x128x64_64x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_256x128x64_64x64x64_hswish.cu
index 7f14fddc..188100ea 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_256x128x64_64x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_256x128x64_64x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_256x128x64_64x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_256x128x64_64x64x64_id.cu
index ddc4869d..ae13454f 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_256x128x64_64x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_256x128x64_64x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_256x128x64_64x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_256x128x64_64x64x64_relu.cu
index b7d0aba9..50c922ed 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_256x128x64_64x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_256x128x64_64x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_32x64x64_32x16x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_32x64x64_32x16x64_hswish.cu
index dee9e38c..18a28e77 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_32x64x64_32x16x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_32x64x64_32x16x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_32x64x64_32x16x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_32x64x64_32x16x64_id.cu
index 33939b7b..81aaf985 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_32x64x64_32x16x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_32x64x64_32x16x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_32x64x64_32x16x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_32x64x64_32x16x64_relu.cu
index 8926a9d6..a5a28e66 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_32x64x64_32x16x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_32x64x64_32x16x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x128x64_32x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x128x64_32x64x64_hswish.cu
index 2e9eda95..4f392700 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x128x64_32x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x128x64_32x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x128x64_32x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x128x64_32x64x64_id.cu
index 7e9fc7a4..d57be3e4 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x128x64_32x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x128x64_32x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x128x64_32x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x128x64_32x64x64_relu.cu
index 00ed690b..986c50ea 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x128x64_32x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x128x64_32x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x64x64_32x32x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x64x64_32x32x64_hswish.cu
index e644b166..c7fc2eb9 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x64x64_32x32x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x64x64_32x32x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x64x64_32x32x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x64x64_32x32x64_id.cu
index f870aed5..9130efa7 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x64x64_32x32x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x64x64_32x32x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x64x64_32x32x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x64x64_32x32x64_relu.cu
index d6bebaf2..f5f7935f 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x64x64_32x32x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_1x1_64x64x64_32x32x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_256x128x64_64x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_256x128x64_64x64x64_hswish.cu
index 33027d35..c7965a5e 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_256x128x64_64x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_256x128x64_64x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_256x128x64_64x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_256x128x64_64x64x64_id.cu
index adca5a47..f59e303f 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_256x128x64_64x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_256x128x64_64x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_256x128x64_64x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_256x128x64_64x64x64_relu.cu
index 9ca3b541..714c2eef 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_256x128x64_64x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_256x128x64_64x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_32x64x64_32x16x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_32x64x64_32x16x64_hswish.cu
index 89b80552..15da7001 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_32x64x64_32x16x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_32x64x64_32x16x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_32x64x64_32x16x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_32x64x64_32x16x64_id.cu
index 30e53fc0..71d9935c 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_32x64x64_32x16x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_32x64x64_32x16x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_32x64x64_32x16x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_32x64x64_32x16x64_relu.cu
index 465fe265..a8c52b77 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_32x64x64_32x16x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_32x64x64_32x16x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x128x64_32x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x128x64_32x64x64_hswish.cu
index 00fb0d97..12690457 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x128x64_32x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x128x64_32x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x128x64_32x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x128x64_32x64x64_id.cu
index 1b2402de..ef3af676 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x128x64_32x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x128x64_32x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x128x64_32x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x128x64_32x64x64_relu.cu
index 647694ce..85cb8d05 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x128x64_32x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x128x64_32x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x64x64_32x32x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x64x64_32x32x64_hswish.cu
index 54cca4c8..a43c9740 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x64x64_32x32x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x64x64_32x32x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x64x64_32x32x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x64x64_32x32x64_id.cu
index 48c0ed8f..d8e05bcf 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x64x64_32x32x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x64x64_32x32x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x64x64_32x32x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x64x64_32x32x64_relu.cu
index bbfd2311..928381b9 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x64x64_32x32x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_64x64x64_32x32x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x128x64_64x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x128x64_64x64x64_hswish.cu
index b9333b45..2d7b2e6b 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x128x64_64x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x128x64_64x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x128x64_64x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x128x64_64x64x64_id.cu
index 0ed1e56a..fcc0ee3c 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x128x64_64x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x128x64_64x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x128x64_64x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x128x64_64x64x64_relu.cu
index 9ffd151c..c301395e 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x128x64_64x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x128x64_64x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x256x64_64x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x256x64_64x64x64_hswish.cu
index 5371a42a..38562844 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x256x64_64x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x256x64_64x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x256x64_64x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x256x64_64x64x64_id.cu
index c152bd5e..eebfa8f7 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x256x64_64x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x256x64_64x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x256x64_64x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x256x64_64x64x64_relu.cu
index dfe97c7f..7e9db5d5 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x256x64_64x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x256x64_64x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x64x64_64x32x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x64x64_64x32x64_hswish.cu
index 9db800d3..bf2267b9 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x64x64_64x32x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x64x64_64x32x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x64x64_64x32x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x64x64_64x32x64_id.cu
index 4f0e90ad..88047e92 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x64x64_64x32x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x64x64_64x32x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x64x64_64x32x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x64x64_64x32x64_relu.cu
index c664ccd8..05a68af2 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x64x64_64x32x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_128x64x64_64x32x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x128x64_64x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x128x64_64x64x64_hswish.cu
index ea9cedcb..0fdb08eb 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x128x64_64x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x128x64_64x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x128x64_64x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x128x64_64x64x64_id.cu
index 9652ea56..f7737015 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x128x64_64x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x128x64_64x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x128x64_64x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x128x64_64x64x64_relu.cu
index 1beff87f..d0ec979c 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x128x64_64x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x128x64_64x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x256x64_64x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x256x64_64x64x64_hswish.cu
index 876e0dae..19ef5ff0 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x256x64_64x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x256x64_64x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x256x64_64x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x256x64_64x64x64_id.cu
index e86c5238..512b1cf3 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x256x64_64x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x256x64_64x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x256x64_64x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x256x64_64x64x64_relu.cu
index 36b3b3c8..34ac69ef 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x256x64_64x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x256x64_64x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x64x64_64x32x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x64x64_64x32x64_hswish.cu
index 4e115ae8..2b021b30 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x64x64_64x32x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x64x64_64x32x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x64x64_64x32x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x64x64_64x32x64_id.cu
index a7829ddc..1bf793ff 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x64x64_64x32x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x64x64_64x32x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x64x64_64x32x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x64x64_64x32x64_relu.cu
index e9cd6b18..3d3fb71d 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x64x64_64x32x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_128x64x64_64x32x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_256x128x64_64x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_256x128x64_64x64x64_hswish.cu
index b98a9376..d3ad572e 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_256x128x64_64x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_256x128x64_64x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_256x128x64_64x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_256x128x64_64x64x64_id.cu
index f8ca8877..7382553f 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_256x128x64_64x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_256x128x64_64x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_256x128x64_64x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_256x128x64_64x64x64_relu.cu
index 88420f6d..a4160f2d 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_256x128x64_64x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_256x128x64_64x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_32x64x64_16x32x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_32x64x64_16x32x64_hswish.cu
index 34234df5..81481ab3 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_32x64x64_16x32x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_32x64x64_16x32x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_32x64x64_16x32x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_32x64x64_16x32x64_id.cu
index c69170cf..73d90af2 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_32x64x64_16x32x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_32x64x64_16x32x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_32x64x64_16x32x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_32x64x64_16x32x64_relu.cu
index ed347534..6312d23c 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_32x64x64_16x32x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_32x64x64_16x32x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x128x64_32x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x128x64_32x64x64_hswish.cu
index 8a9c6cdc..13b7bb4e 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x128x64_32x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x128x64_32x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x128x64_32x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x128x64_32x64x64_id.cu
index 1d081f4c..ab533076 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x128x64_32x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x128x64_32x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x128x64_32x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x128x64_32x64x64_relu.cu
index 997cda70..e47929cc 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x128x64_32x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x128x64_32x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x64x64_32x32x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x64x64_32x32x64_hswish.cu
index b27c8248..02c45ed4 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x64x64_32x32x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x64x64_32x32x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x64x64_32x32x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x64x64_32x32x64_id.cu
index 07d0fcd2..b20ae9a5 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x64x64_32x32x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x64x64_32x32x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x64x64_32x32x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x64x64_32x32x64_relu.cu
index 94167d78..04419993 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x64x64_32x32x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_1x1_64x64x64_32x32x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_256x128x64_64x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_256x128x64_64x64x64_hswish.cu
index c27f507c..69f2369b 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_256x128x64_64x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_256x128x64_64x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_256x128x64_64x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_256x128x64_64x64x64_id.cu
index 44c2437d..936cfd40 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_256x128x64_64x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_256x128x64_64x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_256x128x64_64x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_256x128x64_64x64x64_relu.cu
index bd2802ee..7b54ec47 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_256x128x64_64x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_256x128x64_64x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_32x64x64_16x32x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_32x64x64_16x32x64_hswish.cu
index ce9e3b03..eb38598e 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_32x64x64_16x32x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_32x64x64_16x32x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_32x64x64_16x32x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_32x64x64_16x32x64_id.cu
index ff5f6d01..8bb5a17d 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_32x64x64_16x32x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_32x64x64_16x32x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_32x64x64_16x32x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_32x64x64_16x32x64_relu.cu
index a0786d6c..335442f6 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_32x64x64_16x32x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_32x64x64_16x32x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x128x64_32x64x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x128x64_32x64x64_hswish.cu
index 964f4219..f4bf5611 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x128x64_32x64x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x128x64_32x64x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x128x64_32x64x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x128x64_32x64x64_id.cu
index c6dc75cc..e85cb26f 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x128x64_32x64x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x128x64_32x64x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x128x64_32x64x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x128x64_32x64x64_relu.cu
index e8c765ca..f8ce9147 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x128x64_32x64x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x128x64_32x64x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x64x64_32x32x64_hswish.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x64x64_32x32x64_hswish.cu
index e0cbba9b..a91494e5 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x64x64_32x32x64_hswish.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x64x64_32x32x64_hswish.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x64x64_32x32x64_id.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x64x64_32x32x64_id.cu
index 0ff0f65f..153c1bdf 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x64x64_32x32x64_id.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x64x64_32x32x64_id.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x64x64_32x32x64_relu.cu b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x64x64_32x32x64_relu.cu
index 822b0479..1518e4b6 100644
--- a/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x64x64_32x32x64_relu.cu
+++ b/dnn/src/cuda/conv_bias/int8_imma/kimpl/conv_bias_int8_implicit_gemm_imma_ncdiv32hw32_ncdiv4hw4_64x64x64_32x32x64_relu.cu
@@ -1,5 +1,5 @@
 #if !MEGDNN_TEGRA_X1
-// generated by gen_cuda_conv_bias_kern_impls.py
+// generated by gen_cuda_conv_bias_int8_kern_impls.py
 // ignore warning of cutlass
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wunused-parameter"
@@ -31,6 +31,6 @@ template void megdnn::cuda::cutlass_wrapper::cutlass_convolution_wrapper<Convolu
         int* workspace, 
         typename Convolution::ConvolutionParameter const& conv_param, 
         typename Convolution::EpilogueOutputOp::Params const& epilogue, 
-        cudaStream_t stream);
+        cudaStream_t stream, typename Convolution::ExtraParam extra_param);
 #pragma GCC diagnostic pop
 #endif
diff --git a/dnn/src/cuda/conv_bias/opr_impl.h b/dnn/src/cuda/conv_bias/opr_impl.h
index d5bbb1f1..c8fca2b8 100644
--- a/dnn/src/cuda/conv_bias/opr_impl.h
+++ b/dnn/src/cuda/conv_bias/opr_impl.h
@@ -65,6 +65,7 @@ public:
     class AlgoInt8CHWN4IMMAImplicitGemmUnrollWidth;
     class AlgoInt8NCHW32IMMAImplicitGemm;
     class AlgoInt4Int4NCHW64IMMAImplicitGemm;
+    class AlgoUInt4Int4NCHW64IMMAImplicitGemm;
     class AlgoBFloat16;
 
     class AlgoPack;
diff --git a/dnn/test/cuda/conv_bias_int8.cpp b/dnn/test/cuda/conv_bias_int8.cpp
index 3fbebd6c..e13a562c 100644
--- a/dnn/test/cuda/conv_bias_int8.cpp
+++ b/dnn/test/cuda/conv_bias_int8.cpp
@@ -689,7 +689,7 @@ TEST_F(CUDA, CONV_BIAS_INT8_CHWN4_UNROLL_WIDTH_TENSORCORE_1x1_ALGO_2) {
 }
 
 
-TEST_F(CUDA, CUTLASS_INT8_WEIGHT_PREPROCESS) {
+TEST_F(CUDA, CUTLASS_CONV_BIAS_INT8_WEIGHT_PREPROCESS) {
     require_compute_capability(6, 1);
     Checker<ConvBiasForward, OprWeightPreprocessProxy<ConvBiasForward>> checker(
             handle_cuda());