cuda跑任务会发生指针越界的问题

环境介绍:
我有两张一模一样的A100显卡,安装的nvidia驱动为550.127.08,我跑同一个测试任务。

问题:
gpu0会发生如下报错:
RuntimeError: CUDA error: an illegal memory access was encountered
Compile with TORCH_USE_CUDA_DSA to enable device-side assertions.

但是相同的任务在gpu1上跑就不会出问题。

在测试gpu0的时候,通过nvidia-smi查看负载情况,内存和利用率均没有超标。
并且gpu0在跑深度学习任务的时候,有的时候可以正常跑完,有时候会在某个epoch发生这个错误,我通过gpuburn和cuda-memcheck等测试工具,gpu0均没有问题。

重新安装显卡驱动和更换cuda版本还是出现如上的问题。

诉求:
个人认为应该不是py脚本的问题,并且gpu0在某些任务上也是可以跑的。
希望可以帮忙提供解决方案

我通过export CUDA_LAUNCH_BLOCKING=1,定位到语句,将cudann设置为False,依然有如上错误

torch.backends.cudnn.enabled = False
torch.backends.cudnn.benchmark = False