最近在做tensorrt的int8推理,使用别的精度的时候能够生成engine,但是使用int8时会报显存不足但是一些别的模型上(网络大小差不多)是能够正确生成engine,请问我应该怎么做才能将当前的网络转换成功。
或者是否有哪些结构不支持使用int8精度。
PS:转换失败的模型是通过pytorch生成的onnx,生成代码如下
torch.onnx.export(modeleval,dummy_input,f,
input_names=[“input”],
output_names=[“output”],
dynamic_axes={‘input’:
{0: ‘b’},
‘output’:
{0: ‘b’}},
opset_version = 10)
图错误提示信息
[09/24/2020-14:18:08] [E] [TRT] C:\source\rtSafe\safeRuntime.cpp (25) - Cuda Error in nvinfer1::internal::DefaultAllocator::allocate: 2 (out of memory)
显存使用情况