cuda 3.0新特性关于L1 cache

system · 2010 年3 月 31 日 04:55

在cuda2.X里，私有变量的定义是不确定的，可能在register里，也可能是local memory。如果在local memory中，按文档来说是在显存里。一般来说私有变量如果register没有爆，基本就在register里，即使是数组也可以。但有种情况例外，就是数组的下标是不确定的变量的情况下，一律放到locl memory中，这样速度就差远了，我理解一个是显存读取的延迟和带宽，还有就是地址换算的时间。

在cuda 3.0中，在计算能力2.0以上硬件中，由于有L1 cache，数组也可以在L1 cache里，这样速度可能会有提升。虽然现在还没拿到fermi的硬件，但期待这一结果。如果有效果会放出测试。还有就是L1 cache和share memory在一起而且有两种配置方式，不知道L1 cache会不会有bank 冲突问题，我想应该没有吧！

fermi的L2 cache的带宽不知道是怎样的，没有相关资料，有知道情况的朋友最好能说一下！

system · 2010 年3 月 31 日 08:39

这里也没fermi~~等待Fermi