我的卡是联想的阉割版GT555M.
用matrixMul的输出结果是5.73GFlops
用matrixMulCUBLAS的输出结果是130GFlops.
我现在要在matrixMul的基础上继续进行优化.但是我是新手.完全没有任何头绪.
希望各位能给指点下如果继续进行优化应该从哪方面着手.
谢谢了.
我的卡是联想的阉割版GT555M.
用matrixMul的输出结果是5.73GFlops
用matrixMulCUBLAS的输出结果是130GFlops.
我现在要在matrixMul的基础上继续进行优化.但是我是新手.完全没有任何头绪.
希望各位能给指点下如果继续进行优化应该从哪方面着手.
谢谢了.
LZ您好,如果您需要使用矩阵相乘的功能,请直接使用良好优化过的cublas库。
CUDA Samples中的matrixMul仅供用户参考如何使用CUDA编程。
以及我无法告知您如何优化matrixMul以达到库函数的水平,我并不具备此知识和能力。
大致如此,祝您好运~
谢谢.
我不是想让您告诉我怎么优化.而是希望您指点一下大致应该从哪方面着手.
因为我现在对CUDA只是入门.进一步的优化完全是两眼一抹黑.
但是时间又有限.所有来求助.
LZ您好,您如果需要学习CUDA的话,请参阅如下帖子提供的资料:
http://cudazone.nvidia.cn/forum/forum.php?mod=viewthread&tid=6756&extra=page%3D1
以及,斑竹一般只负责回答和讨论CUDA的具体问题,而无法像课程一样给您讲述某类问题。
编程的概念和优化方面涉及的内容很多,如果您愿意翻看论坛的讨论帖的话,也许每个详细的讨论帖都能有优化的闪光点和经验的积累。
大致说这些了,没有什么神奇的捷径的,慢慢积累,每天都能进步。
祝您编码愉快~
好吧.谢谢你了.