多个Jetson Orin 64GB Devkit使用过程中突然断电

请使用下面的模版提问(创建话题后勾选相应的选项):
Jetson 模组
[√] Jetson AGX Orin
Jetson Orin NX
Jetson Orin Nano
Jetson AGX Xavier
Jetson Xavier NX
Jetson TX 系列
Jetson Nano

Jetson 软件
JetPack 5.1.3
JetPack 5.1.4
JetPack 6.0
JetPack 6.1
[√] JetPack 6.2
DeepStream SDK
NVIDIA Isaac

SDK Manager 管理工具版本
2.3.0
2.2.0
2.1.0
其他

问题描述
我们把Jetson Orin 64GB Devkit放在了我们产品中跑算法使用,外面有产品的机身外壳,发现有总共6台,在过去的1个月内相继出现测试过程中无征兆的掉电关机,之后重新上电能恢复。很难复现,最频繁的时候1小时出3次,平常可能几天耦合会出一次。测试环境是室内,有空调的环境。资源使用率请见截图,GPU用了98%,CPU大概50~70%,功耗模式开的是最大功耗。目前已经排除外部供电能力不足(我们自己的板卡可供电164.5A)和接插件的可能性。由于是偶发掉电,所以之前没有保存的了相关log。
相关系统的配置如图

错误码
*其他组测试过程中,发现一台未掉电的机器上,看到有过流告警,GPU使用资源98%,CPU 50%左右。所以有些怀疑是过电流保护或者过热导致,需要知道过流指的是哪里过流,要搞清楚orin devkit的电源管理机制和热管理机制,是否会由于资源用的多或散热瓶颈,出现关机的情况。如果和这个有关,如何安全使用避免关机。


错误日志
一台告警的机器报 System throttled due to over-current;其他几台突发断电的机器由于关机日志未拿到

掉电之前,在机器的kernal日志中看到如下信息。看起来和热比较有关系


看如何定位,以及如果是资源使用大导致过流或温度问题触发硬件保护,安全只用门限是怎样的,如何设计安全条件下使用

SYSLOG.txt (798.7 KB)
关机前的syslog,上传,可以根据此来详细分析