使用共享存储计算矩阵乘法

system · 2013 年10 月 8 日 02:31

请教一下，在CUDA编程指南里面，关于利用共享存储完成矩阵乘法，为什么在全局存储器中，矩阵A只被读了(B.width/block_size)次，同时矩阵B读了(A.height/block_size)次呢？这个怎么得出的结论？

system · 2013 年10 月 8 日 04:10

LZ您好：

这个大致是因为，将矩阵分块读入shared memory，然后反复使用shared memory中的数据，以减少global memory的访问量。

您可以对照手册中的具体实现考虑。

以及，我没有仔细计算过上述结果，请您自行保证该结论的正确性。

祝您好运~