GF114 GF104的计算能力是2.1。每个SM 48个SP,48个单精度浮点运算,但只有4个双精度浮点运算。GF100 GF110中为了和特斯拉相区别double 的计算能力是float的1/8,2.1的居然是1/12。逼着人们买特斯拉啊!
2.0中每个SM有两个解码器,同时为偶数thread和奇数thread发送指令。2.1只有一个解码器,但同时能发送两个指令。到底哪个效率高?
还有2.1中每个SM 48个SP,怎么分配的warp呢?
如果48个SP同时读取32个共享内存,必然产生bank conflict啊?
再说说特斯拉,除了这个双精度效率高和EEC,真没什么好的。我用矩阵乘法测试,float的速度大概是392G。也就是448*876M。看很多人反映过,由于带宽和内存延时的限制,C2050还没有580快,即使是双精度。
我有个程序,在我本本的G105M 1.1 1SM 8SP 1600MHz 上跑一个1block的程序1分钟,到C2050上,同样一个block,居然要2分钟,就算C2050频率低,32个SP咋还跑不过8个sp呢?
[ 本帖最后由 qsminside 于 2011-6-16 21:43 编辑 ]