对于2n与n2的矩阵相乘(n在10000左右),结果为2*2大小的矩阵,有什么好的优化方法吗?
什么意思呢没看明白楼上的
用shared memory去做,好像时间比不用GPU去做要大很多。
这里shared memory只能复用两次,意义不大;试试texture
郁闷:):D:o