求GPU各级存储访问延迟对比

想了解下GPU各级存储的具体访问延迟

寄存器
共享内存
局部存储
纹理存储
常量存储
全局存储

各位帮个忙,谢谢!

LZ您好,这个似乎并无确切的资料的,对于global memory,有个大致的说法是400~800周期。

以及,local memory,texture memory,constant memory其实都是存在显存DRAM里面的(和global一样),但是这三者又分别有不同的缓存途径。
以及,一般说的global memory其实自fermi架构以来,也有全局的L2 cache缓冲,访问global 的时候,L2cache命中和不命中,延迟也是不同的。

一般只需要考虑掩盖长延迟的global 访问等即可。

大致如此,祝您好运~

写程序用哪个我是知道,主要是想用到论文中,需要具体的数据来提高说明力

这个真心没有资料的,或许您可以求助NV原厂支持,看能否给您一个参考结果。

祝您好运~

谢谢斑竹的热心回答!