求助如何对cuda toolkit 里面的matrixMul进行进一步优化.

system · 2013 年5 月 17 日 14:22

我的卡是联想的阉割版GT555M.
用matrixMul的输出结果是5.73GFlops
用matrixMulCUBLAS的输出结果是130GFlops.

我现在要在matrixMul的基础上继续进行优化.但是我是新手.完全没有任何头绪.

希望各位能给指点下如果继续进行优化应该从哪方面着手.

谢谢了.

system · 2013 年5 月 17 日 14:34

LZ您好，如果您需要使用矩阵相乘的功能，请直接使用良好优化过的cublas库。
CUDA Samples中的matrixMul仅供用户参考如何使用CUDA编程。

以及我无法告知您如何优化matrixMul以达到库函数的水平，我并不具备此知识和能力。

大致如此，祝您好运~

system · 2013 年5 月 17 日 14:48

谢谢.

我不是想让您告诉我怎么优化.而是希望您指点一下大致应该从哪方面着手.
因为我现在对CUDA只是入门.进一步的优化完全是两眼一抹黑.

但是时间又有限.所有来求助.

system · 2013 年5 月 17 日 14:59

LZ您好，您如果需要学习CUDA的话，请参阅如下帖子提供的资料：

以及，斑竹一般只负责回答和讨论CUDA的具体问题，而无法像课程一样给您讲述某类问题。
编程的概念和优化方面涉及的内容很多，如果您愿意翻看论坛的讨论帖的话，也许每个详细的讨论帖都能有优化的闪光点和经验的积累。

大致说这些了，没有什么神奇的捷径的，慢慢积累，每天都能进步。

祝您编码愉快~

system · 2013 年5 月 17 日 15:05

好吧.谢谢你了.