在gpu高性能计算之CUDA 的136页 中 讲到 SM执行warp指令需要的时间可以通过指令吞吐量来衡量,对于需要4个sp周期的运算,其指令吞吐量为8指令/周期。 也就是说32指令/4周期 ? SM最主要的执行资源是8个ALU和MAD,一个branch单元和一个ALU/MAD单元一起组成一个SP ,但是ALU和MAD单元至少需要4个sp周期才能完成一次运算, 每次只是对一个warp中的 8个thread 的数进行操作啊 那个8指令/周期到底是怎么算出来的 ???
在gpu高性能计算之CUDA 的136页 中 讲到 SM执行warp指令需要的时间可以通过指令吞吐量来衡量,对于需要4个sp周期的运算,其指令吞吐量为8指令/周期。 也就是说32指令/4周期 ? SM最主要的执行资源是8个ALU和MAD,一个branch单元和一个ALU/MAD单元一起组成一个SP ,但是ALU和MAD单元至少需要4个sp周期才能完成一次运算, 每次只是对一个warp中的 8个thread 的数进行操作啊 那个8指令/周期到底是怎么算出来的 ???