大家想一想双重循环(三重循环)在cuda中怎么实现

我想可以启动i=blockIdx.xblockDim.x+threadIdx.x;j=blockIdx.yblockDim.y+threadIdx.y;
这样用消耗线程的方式来提高并行粒度。

SDK中矩阵乘法的例子可以看看啊