root@test:~# nvidia-smi -q | grep -i error
ECC Errors
Correctable Error : 0
Uncorrectable Error : 0
ECC Errors
Correctable Error : 0
Uncorrectable Error : 0
ECC Errors
Correctable Error : 0
Uncorrectable Error : 0
ECC Errors
Correctable Error : 0
Uncorrectable Error : 0
ECC Errors
Correctable Error : 0
Uncorrectable Error : 0
Status : Unknown Error
ECC Errors
Correctable Error : 0
Uncorrectable Error : 0
Status : Unknown Error
ECC Errors
Correctable Error : 0
Uncorrectable Error : 0
Status : Unknown Error
ECC Errors
Status : Unknown Error
dcgmi drag -r 3 输出显示 GPU 0-3 出现 P2P通信测试失败。GPU0温度超过阈值。请看看PCIe 是否插入正确。
驱动570.124.06可能跟硬件不兼容。
dcgmi discovery -l
验证所有GPU能被正确识别
sudo nvidia-smi -pm 1
最可能的原因是GPU 0-3与GPU 4-7位于不同的PCIe交换机下。先看一下散热问题,然后再调试。
nvidia-bug-report.sh
生成完整报告。