问:请教大家个问题,在做INT8量化的时候,假如某些层不支持int8,那是整个网络fallback到FP32,不进入量化环节,然后生成一个FP32的engine,还是某些层fallback到FP32?
答复:calibration cache只是一个fp32结果的统计值得到的,也就是即使层不支持int8,量化的时候还是会生成这一层calibration cache。精度设置实际上是一个精度的上限,设置为int8,会去测试int8,fp16,fp32及前后相关操作(比如量化)等,确定最快的一个tactic。