tensorrt使用int8推理显存异常

saltyfishcc · 2020 年9 月 24 日 06:26

最近在做tensorrt的int8推理，使用别的精度的时候能够生成engine，但是使用int8时会报显存不足但是一些别的模型上（网络大小差不多）是能够正确生成engine，请问我应该怎么做才能将当前的网络转换成功。
或者是否有哪些结构不支持使用int8精度。

PS：转换失败的模型是通过pytorch生成的onnx，生成代码如下
torch.onnx.export(modeleval,dummy_input,f,
input_names=[“input”],
output_names=[“output”],
dynamic_axes={‘input’:
{0: ‘b’},
‘output’:
{0: ‘b’}},
opset_version = 10)

图错误提示信息
[09/24/2020-14:18:08] [E] [TRT] C:\source\rtSafe\safeRuntime.cpp (25) - Cuda Error in nvinfer1::internal::DefaultAllocator::allocate: 2 (out of memory)
显存使用情况

saltyfishcc · 2020 年9 月 24 日 12:46

补充一下，当导出onnx模型不使用dynamic_axes时能够成功运行