计算能力2.1是进步还是倒退？

system · 2011 年6 月 16 日 13:40

GF114 GF104的计算能力是2.1。每个SM 48个SP，48个单精度浮点运算，但只有4个双精度浮点运算。GF100 GF110中为了和特斯拉相区别double 的计算能力是float的1/8，2.1的居然是1/12。逼着人们买特斯拉啊！

2.0中每个SM有两个解码器，同时为偶数thread和奇数thread发送指令。2.1只有一个解码器，但同时能发送两个指令。到底哪个效率高？

还有2.1中每个SM 48个SP，怎么分配的warp呢？

如果48个SP同时读取32个共享内存，必然产生bank conflict啊？

再说说特斯拉，除了这个双精度效率高和EEC，真没什么好的。我用矩阵乘法测试，float的速度大概是392G。也就是448*876M。看很多人反映过，由于带宽和内存延时的限制，C2050还没有580快，即使是双精度。

我有个程序，在我本本的G105M 1.1 1SM 8SP 1600MHz 上跑一个1block的程序1分钟，到C2050上，同样一个block，居然要2分钟，就算C2050频率低，32个SP咋还跑不过8个sp呢？

[ 本帖最后由 qsminside 于 2011-6-16 21:43 编辑 ]