请教一下,在CUDA编程指南里面,关于利用共享存储完成矩阵乘法,为什么在全局存储器中,矩阵A只被读了(B.width/block_size)次,同时矩阵B读了(A.height/block_size)次呢?这个怎么得出的结论?
LZ您好:
这个大致是因为,将矩阵分块读入shared memory,然后反复使用shared memory中的数据,以减少global memory的访问量。
您可以对照手册中的具体实现考虑。
以及,我没有仔细计算过上述结果,请您自行保证该结论的正确性。
祝您好运~