我用nsight2.2调试matrixMul这个例子,在核函数中加入断点,然后执行start cuda debugging,在断点出能够停下来,但是单步执行的时候出问题了。
nsight的手册只有一点可能和这个有关:
楼主尝试下将您的项目属性中使用的C库改为“multi-threaded debug”(在属性的CUDA C/C++ → host → runtime library中), 然后您再尝试看有无效果。
我没有能提供的更好的建议了。
以及,请确保您的属性中的"CUDA C/C++ → Device中”,选择了"-G"。
以及,修改完毕后请重新build.
以及,欢迎其他会员、版主、NVIDIA技术支持、总版主提供更好的建议。