问:所以说会进入int8量化环节,但是不保证所有层都用int8,对吗?
答复:我们区分一下calibration和quantization,calibration环节不需要真的去运行int8的计算,这个所有的层都会做。quantization是在runtime运行模型的时候,这个取决于build engine的时候有没有选择int8 kernel(可能是没有int8 kernel,也可能是不够快)
问:所以说会进入int8量化环节,但是不保证所有层都用int8,对吗?
答复:我们区分一下calibration和quantization,calibration环节不需要真的去运行int8的计算,这个所有的层都会做。quantization是在runtime运行模型的时候,这个取决于build engine的时候有没有选择int8 kernel(可能是没有int8 kernel,也可能是不够快)