请使用下面的模版提问(创建话题后勾选相应的选项):
Jetson 模组
[√] Jetson AGX Orin
Jetson Orin NX
Jetson Orin Nano
Jetson AGX Xavier
Jetson Xavier NX
Jetson TX 系列
Jetson Nano
Jetson 软件
JetPack 5.1.3
JetPack 5.1.4
JetPack 6.0
JetPack 6.1
[√] JetPack 6.2
DeepStream SDK
NVIDIA Isaac
SDK Manager 管理工具版本
2.3.0
2.2.0
2.1.0
其他
问题描述
我们把Jetson Orin 64GB Devkit放在了我们产品中跑算法使用,外面有产品的机身外壳,发现有总共6台,在过去的1个月内相继出现测试过程中无征兆的掉电关机,之后重新上电能恢复。很难复现,最频繁的时候1小时出3次,平常可能几天耦合会出一次。测试环境是室内,有空调的环境。资源使用率请见截图,GPU用了98%,CPU大概50~70%,功耗模式开的是最大功耗。目前已经排除外部供电能力不足(我们自己的板卡可供电164.5A)和接插件的可能性。由于是偶发掉电,所以之前没有保存的了相关log。
相关系统的配置如图
错误码
*其他组测试过程中,发现一台未掉电的机器上,看到有过流告警,GPU使用资源98%,CPU 50%左右。所以有些怀疑是过电流保护或者过热导致,需要知道过流指的是哪里过流,要搞清楚orin devkit的电源管理机制和热管理机制,是否会由于资源用的多或散热瓶颈,出现关机的情况。如果和这个有关,如何安全使用避免关机。
错误日志
一台告警的机器报 System throttled due to over-current;其他几台突发断电的机器由于关机日志未拿到
掉电之前,在机器的kernal日志中看到如下信息。看起来和热比较有关系
看如何定位,以及如果是资源使用大导致过流或温度问题触发硬件保护,安全只用门限是怎样的,如何设计安全条件下使用
SYSLOG.txt (798.7 KB)
关机前的syslog,上传,可以根据此来详细分析
1.疑点
a.未发现风扇调速日志
按照道理应该在 hot-surface-alert cooling state: 0 → 1 附近出现 FAN rising trip_level:2 cur_temp:63150 trip_temps[3]:72000 之类的风扇调速日志
2.分析Jetson Orin NX热管理文档 Jetson-Orin-NX-Nano-Thermal-AppNote_TDG-11127-001v1.5.pdf:
a.温度定义:
Maximum Orin SoC operating temperature1 T.SoC3 = 99 °C # 最大工作温度99,超过会主动降低时钟频率,控制温度
Orin SoC shutdown temperature2 T.SoC3 = 105 °C # 关机温度,超过会关机
b.风扇有“Quiet Mode” and “Cool Mode”两种模式
默认为Quiet
3.复现
a.收集现场温度和风扇转速信息,相关命令:
tegrastats | head -n 1 # 收集温度信息1次
find /sys/class/hwmon/*/ | grep rpm # 找到风扇转速文件执行 cat /sys/class/hwmon/hwmon2/rpm
以下脚本挂机器里运行,收集温度和风扇速度到 ~/temperature.log
nohup sh -c “while true; do date; sh -c ‘tegrastats | head -n 1’; cat /sys/class/hwmon/hwmon2/rpm; done” > ~/temperature.log 2>&1 &
b.主动加热测试
可使用热风枪 或者 电吹风吹一下模组 (控制距离 吹到85度以下是比较安全的,吹散热器,不要吹插头和排线)
观察收集的温度,风扇转速是否和现场过程一致。
4.建议
a.修改 /etc/nvfancontrol.conf 文件 (修改后整机重启 或者 sudo systemctl restart nvfancontrol)用于积极散热
POLLING_INTERVAL 2 修改为 POLLING_INTERVAL 1 温度响应能快一点
TMARGIN DISABLED (如果是)修改为 TMARGIN 5, 提前5-10度采取散热措施,防止温度突然变化冲击硬件 (但也会更加容易触发保护)
FAN_DEFAULT_PROFILE quiet 修改为 FAN_DEFAULT_PROFILE cool 风扇启动更早,转速更大
FAN_DEFAULT_CONTROL open_loop (如果是) 修改为 FAN_DEFAULT_CONTROL auto 避免开环控制固定的转速不够
b.改善Jetson设备整体散热环境
报 System throttled due to over-current 时参考下文,热管理开始降频限电流 限功率了
Jetson-Orin-NX-Nano-Thermal-AppNote_TDG-11127-001v1.5.pdf
5.4 Orin SoC Hardware Thermal Throttling
If software thermal management is not able to maintain the Orin SoC temperature, then hardware
thermal throttling will engage to prevent thermal shutdown. To help avoid thermal shutdown
conditions without being overly conservative, Orin SoC has hardware-engaged clock throttling
mechanisms that are used as a last resort to prevent shutdown conditions. This will lower the Orin
SoC temperature, but it will also significantly reduce the overall Orin SoC performance. The Orin SoC
throttle settings cannot be altered. NVIDIA implements these settings are to meet safety and
reliability standards.
修正: 如果是 TMARGIN DISABLED 的话请保持原有配置,不需要修改成 TMARGIN ENABLED 或者其他值