CUDA中实际执行是WARP为单位的,可不可以这样理解,计算以WARP为单位(8个SP执行4次),访存以HARF-WARP为单位,访全局内存要分两次就是800多个CYCLE(假如访存一次要400CYCLE)?
对的,但是在fermi上,好像很多方面已经不太明朗了
Fermi一样是32线程的warp作为执行单位
warp以下的执行和访存是与硬件架构相关的
楼主说的只是特斯拉架构的情况
CUDA中实际执行是WARP为单位的,可不可以这样理解,计算以WARP为单位(8个SP执行4次),访存以HARF-WARP为单位,访全局内存要分两次就是800多个CYCLE(假如访存一次要400CYCLE)?
对的,但是在fermi上,好像很多方面已经不太明朗了
Fermi一样是32线程的warp作为执行单位
warp以下的执行和访存是与硬件架构相关的
楼主说的只是特斯拉架构的情况