使用tensor RT测试orin nano性能,关闭tersor float32,resnet18的性能跑到3.5tflops,请问这种情况下使用了tensor core吗??

请使用下面的模版提问(创建话题后勾选相应的选项):
Jetson 模组
Jetson AGX Orin
Jetson Orin NX
Jetson Orin Nano
Jetson AGX Xavier
Jetson Xavier NX
Jetson TX 系列
Jetson Nano

Jetson 软件
JetPack 5.1.3
JetPack 5.1.4
JetPack 6.0
JetPack 6.1
JetPack 6.2
DeepStream SDK
NVIDIA Isaac

SDK Manager 管理工具版本
2.3.0
2.2.0
2.1.0
其他

问题描述
使用tensor RT测试orin nano性能,不使能tersor float32,resnet18的性能跑到3.5tflops, 官网上可见,cuda核的fp32性能为1.6tflops,这种情况下是否使用了tensor core呢?

错误码

错误日志
把这里替换,粘贴错误日志文本(尽量粘贴错误文本,不要只上传截图)
如果有多个日志,请使用多个代码格式化文本

你看到的性能提升来源于TensorRT后台自动调度Tensor Core,即使全float32精度也会用到Tensor Core的硬件加速能力,这与Ampere架构支持部分FP32运算有关