求助如何对cuda toolkit 里面的matrixMul进行进一步优化.

我的卡是联想的阉割版GT555M.
用matrixMul的输出结果是5.73GFlops
用matrixMulCUBLAS的输出结果是130GFlops.

我现在要在matrixMul的基础上继续进行优化.但是我是新手.完全没有任何头绪.

希望各位能给指点下如果继续进行优化应该从哪方面着手.

谢谢了.

LZ您好,如果您需要使用矩阵相乘的功能,请直接使用良好优化过的cublas库。
CUDA Samples中的matrixMul仅供用户参考如何使用CUDA编程。

以及我无法告知您如何优化matrixMul以达到库函数的水平,我并不具备此知识和能力。

大致如此,祝您好运~

谢谢.

我不是想让您告诉我怎么优化.而是希望您指点一下大致应该从哪方面着手.
因为我现在对CUDA只是入门.进一步的优化完全是两眼一抹黑.

但是时间又有限.所有来求助.

LZ您好,您如果需要学习CUDA的话,请参阅如下帖子提供的资料:

http://cudazone.nvidia.cn/forum/forum.php?mod=viewthread&tid=6756&extra=page%3D1

以及,斑竹一般只负责回答和讨论CUDA的具体问题,而无法像课程一样给您讲述某类问题。
编程的概念和优化方面涉及的内容很多,如果您愿意翻看论坛的讨论帖的话,也许每个详细的讨论帖都能有优化的闪光点和经验的积累。

大致说这些了,没有什么神奇的捷径的,慢慢积累,每天都能进步。

祝您编码愉快~

好吧.谢谢你了.