环境介绍:
我有两张一模一样的A100显卡,安装的nvidia驱动为550.127.08,我跑同一个测试任务。
问题:
gpu0会发生如下报错:
RuntimeError: CUDA error: an illegal memory access was encountered
Compile with TORCH_USE_CUDA_DSA
to enable device-side assertions.
但是相同的任务在gpu1上跑就不会出问题。
在测试gpu0的时候,通过nvidia-smi查看负载情况,内存和利用率均没有超标。
并且gpu0在跑深度学习任务的时候,有的时候可以正常跑完,有时候会在某个epoch发生这个错误,我通过gpuburn和cuda-memcheck等测试工具,gpu0均没有问题。
重新安装显卡驱动和更换cuda版本还是出现如上的问题。
诉求:
个人认为应该不是py脚本的问题,并且gpu0在某些任务上也是可以跑的。
希望可以帮忙提供解决方案