cuda 3.0新特性关于L1 cache

在cuda2.X里,私有变量的定义是不确定的,可能在register里,也可能是local memory。如果在local memory中,按文档来说是在显存里。一般来说私有变量如果register没有爆,基本就在register里,即使是数组也可以。但有种情况例外,就是数组的下标是不确定的变量的情况下,一律放到locl memory中,这样速度就差远了,我理解一个是显存读取的延迟和带宽,还有就是地址换算的时间。

在cuda 3.0中,在计算能力2.0以上硬件中,由于有L1 cache,数组也可以在L1 cache里,这样速度可能会有提升。虽然现在还没拿到fermi的硬件,但期待这一结果。如果有效果会放出测试。还有就是L1 cache和share memory在一起而且有两种配置方式,不知道L1 cache会不会有bank 冲突问题,我想应该没有吧!

fermi的L2 cache的带宽不知道是怎样的,没有相关资料,有知道情况的朋友最好能说一下!

这里也没fermi~~等待Fermi