英伟达Tesla系列GPU驱动导致系统重启

我们在Tesla V100上测试英伟达GPU驱动,执行nvidia-smi -r命令时,NVIDIA-Linux-x86_64-560.35.03版本导致系统硬重启.
image

NVIDIA-Linux-x86_64-550.54.14版本导致系统不识别硬件, 必须重启才能恢复。
image

NVIDIA-Linux-x86_64-535.216.03版本导致系统不识别硬件, 必须重启才能恢复。

上面所描述的问题必现,在565,560,550,以及535最新的版本535.216.03都有问题,但早期的535.54.03版本没发现该问题,确定是后续版本引入的问题。

hi, baogen.shang
确认下驱动是不是下载的对的

Hi beyond_Jeff,

我确认下载的驱动是正确的,另外我们用这个驱动测试T4都没出问题,但V100就出现问题了。我尝试了很多次,问题必现.
你们手头有V100的卡的话,可以做个试验,看是否在你们那边必现。我这边是在openEuler-24.03-LTS版本上做的测试。

Thanks,
Baogen

Hi baogen.shang,
不排除是硬件问题,由于v100已经EOL,请和采购的供应商联系解决下吧.

好的,多谢!