执行dcgmi diag -r 3报出许多问题,并且出现未知错误

root@test:~# nvidia-smi -q | grep -i error
ECC Errors
Correctable Error : 0
Uncorrectable Error : 0
ECC Errors
Correctable Error : 0
Uncorrectable Error : 0
ECC Errors
Correctable Error : 0
Uncorrectable Error : 0
ECC Errors
Correctable Error : 0
Uncorrectable Error : 0
ECC Errors
Correctable Error : 0
Uncorrectable Error : 0
Status : Unknown Error
ECC Errors
Correctable Error : 0
Uncorrectable Error : 0
Status : Unknown Error
ECC Errors
Correctable Error : 0
Uncorrectable Error : 0
Status : Unknown Error
ECC Errors
Status : Unknown Error

dcgmi drag -r 3 输出显示 GPU 0-3 出现 P2P通信测试失败。GPU0温度超过阈值。请看看PCIe 是否插入正确。

驱动570.124.06可能跟硬件不兼容。

dcgmi discovery -l 验证所有GPU能被正确识别

sudo nvidia-smi -pm 1

最可能的原因是GPU 0-3与GPU 4-7位于不同的PCIe交换机下。先看一下散热问题,然后再调试。

nvidia-bug-report.sh生成完整报告。