(菜鸟发帖)GPU硬件状态查询?

我在使用GPU计算时,如果运行作业出现NVIDIA: could not open the device file /dev/nvidiactl (No such file or directory)时(可能是GPU出现掉线),作业不会终止,而是会跳过GPU计算部分,继续运行。这样会导致虽然有输出文件,但没有实质性计算!应如何解决?有没有可以检测GPU在线情况的办法,在遇到上述情况时给用户做出提醒?