请使用下面的模版提问(创建话题后勾选相应的选项):
Jetson 模组
[√] Jetson AGX Orin
Jetson Orin NX
Jetson Orin Nano
Jetson AGX Xavier
Jetson Xavier NX
Jetson TX 系列
Jetson Nano
Jetson 软件
JetPack 5.1.3
JetPack 5.1.4
JetPack 6.0
JetPack 6.1
[√] JetPack 6.2
DeepStream SDK
NVIDIA Isaac
SDK Manager 管理工具版本
2.3.0
2.2.0
2.1.0
其他
问题描述
我们把Jetson Orin 64GB Devkit放在了我们产品中跑算法使用,外面有产品的机身外壳,发现有总共6台,在过去的1个月内相继出现测试过程中无征兆的掉电关机,之后重新上电能恢复。很难复现,最频繁的时候1小时出3次,平常可能几天耦合会出一次。测试环境是室内,有空调的环境。资源使用率请见截图,GPU用了98%,CPU大概50~70%,功耗模式开的是最大功耗。目前已经排除外部供电能力不足(我们自己的板卡可供电164.5A)和接插件的可能性。由于是偶发掉电,所以之前没有保存的了相关log。
相关系统的配置如图
错误码
*其他组测试过程中,发现一台未掉电的机器上,看到有过流告警,GPU使用资源98%,CPU 50%左右。所以有些怀疑是过电流保护或者过热导致,需要知道过流指的是哪里过流,要搞清楚orin devkit的电源管理机制和热管理机制,是否会由于资源用的多或散热瓶颈,出现关机的情况。如果和这个有关,如何安全使用避免关机。
错误日志
一台告警的机器报 System throttled due to over-current;其他几台突发断电的机器由于关机日志未拿到