我想可以启动i=blockIdx.xblockDim.x+threadIdx.x;j=blockIdx.yblockDim.y+threadIdx.y; 这样用消耗线程的方式来提高并行粒度。
SDK中矩阵乘法的例子可以看看啊