显卡运行时突然报错“pcihp: Slot(2): Power fault”后停止运行,求助解决方法

大家好,

我在运行 NVIDIA 显卡时遇到了一个问题,显卡在正常运行过程中突然停止工作,终端报错如下:


pcihp: Slot(2): Power fault
Unable to sync register 0x4f0800. -5
显卡崩溃后停止响应。我尝试重启系统后,显卡可以再次工作。

问题详情:

  • 错误信息提到了 PCIe 热插拔(pcihp)报告 Slot 2 上的电源故障(Power fault)。
  • 另一个错误信息表示无法同步寄存器 0x4f0800,错误代码为 -5(一般是 I/O 错误)。
  • 显卡在高负载下崩溃。

我的疑问:

  1. 电源故障问题:这个 “Power fault” 是由于显卡电源供应不足吗?我已经检查过外接电源,显卡插槽和电源线似乎没有明显问题。
  2. 同步寄存器失败的原因Unable to sync register 的报错与电源故障有关系吗?是否是显卡硬件或驱动问题导致的?
  3. 如何解决:这种问题应该如何进一步排查?我在主板上接入两张显卡进行NCCL P2P压力测试时也会出现双显卡同时罢工的情况。

希望大家能提供一些排查思路或解决建议,非常感谢!

你好 @Take7351

欢迎访问 NVIDIA 开发者论坛。:clap: 你的问题我转给相关的同事看一下。

这个问题不是jetson相关问题,请到GPU对应论坛提问,谢谢。