这几天在做FDK的CUDA加速,在自己的GTX580上跑反投影(256256256切片)经过优化需要3秒,然后去朋友的机器上跑,同样是GTX580(我是直接把代码COPY过去重新编译的),他只要1.4秒,我觉得很神奇,经过一下午的研究,发现了问题:
我是用的cuda runtime build rule 4.0规则,他用的cuda build rule 3.0,我把它的规则文件copy到我的机器上,选用3.0规则重新编译,速度也达到了1.4秒左右;然后在其他显卡上都测试了一下,笔记本的310m,540m,台式机的gt220,gt240,发现速度都差不多,没有任何区别,最多0.0几秒,不像gtx580差了一倍多,百思不得其解,忘高人解答