问：所以说会进入int8量化环节，但是不保证所有层都用int8...

GPUS-Cat · 2021 年4 月 26 日 03:35

问：所以说会进入int8量化环节，但是不保证所有层都用int8，对吗？
答复：我们区分一下calibration和quantization，calibration环节不需要真的去运行int8的计算，这个所有的层都会做。quantization是在runtime运行模型的时候，这个取决于build engine的时候有没有选择int8 kernel（可能是没有int8 kernel，也可能是不够快）