GTX580 vs. C2070 on CUDA-Z 0.6.163

system · 2013 年2 月 4 日 13:41

我机器上的GTX580 和 C2070 在 CUDA-Z 0.6.163 上的测试结果如下所示。
[b]部分结论：

单精度浮点数计算 GTX 580 是 C2070 的 1.6 倍左右；
双精度浮点数计算 GTX 580 是 C2070 的 0.4 倍左右；
整数计算 GTX 580 是 C2070 的 1.6 倍左右。[/b]
仅供大家参考，欢迎多提宝贵意见。

[b]Core Information

Name: GeForce GTX 580[/b]
Compute Capability: 2.0
Clock Rate: 1600 MHz
PCI Location: 0:3:0
Multiprocessors: 16 (512 Cores)
Therds Per Multiproc.: 1536
Warp Size: 32
Regs Per Block: 32768
Threads Per Block: 1024
Threads Dimensions: 1024 x 1024 x 64
Grid Dimensions: 65535 x 65535 x 65535
Watchdog Enabled: Yes
Integrated GPU: No
Concurrent Kernels: Yes
Compute Mode: Default

Memory Information

Total Global: 1535.81 MiB
Bus Width: 384 bits
Clock Rate: 2004 MHz
Error Correction: No
L2 Cache Size: 48 KiB
Shared Per Block: 48 KiB
Pitch: 2048 MiB
Total Constant: 64 KiB
Texture Alignment: 512 B
Texture 1D Size: 65536
Texture 2D Size: 65536 x 65535
Texture 3D Size: 2048 x 2048 x 2048
GPU Overlap: Yes
Map Host Memory: Yes
Unified Addressing: No
Async Engine: Yes, Unidirectional

Performance Information

Memory Copy
Host Pinned to Device: 3101.36 MiB/s
Host Pageable to Device: 2394.15 MiB/s
Device to Host Pinned: 3270.42 MiB/s
Device to Host Pageable: 2569.77 MiB/s
Device to Device: 10.6116 GiB/s
GPU Core Performance
Single-precision Float: 1618.74 Gflop/s
Double-precision Float: 204.048 Gflop/s
32-bit Integer: 814.982 Giop/s
24-bit Integer: 811.543 Giop/s

[b]Core Information

Name: Tesla C2070[/b]
Compute Capability: 2.0
Clock Rate: 1147 MHz
PCI Location: 0:2:0
Multiprocessors: 14 (448 Cores)
Therds Per Multiproc.: 1536
Warp Size: 32
Regs Per Block: 32768
Threads Per Block: 1024
Threads Dimensions: 1024 x 1024 x 64
Grid Dimensions: 65535 x 65535 x 65535
Watchdog Enabled: No
Integrated GPU: No
Concurrent Kernels: Yes
Compute Mode: Default

Memory Information

Total Global: 4096 MiB
Bus Width: 384 bits
Clock Rate: 1494 MHz
Error Correction: Yes
L2 Cache Size: 48 KiB
Shared Per Block: 48 KiB
Pitch: 2048 MiB
Total Constant: 64 KiB
Texture Alignment: 512 B
Texture 1D Size: 65536
Texture 2D Size: 65536 x 65535
Texture 3D Size: 2048 x 2048 x 2048
GPU Overlap: Yes
Map Host Memory: Yes
Unified Addressing: No
Async Engine: Yes, Bidirectional

Performance Information

Memory Copy
Host Pinned to Device: 5981.67 MiB/s
Host Pageable to Device: 5329.91 MiB/s
Device to Host Pinned: 6333.27 MiB/s
Device to Host Pageable: 5640.94 MiB/s
Device to Device: 46.6775 GiB/s
GPU Core Performance
Single-precision Float: 1020.71 Gflop/s
Double-precision Float: 512.452 Gflop/s
32-bit Integer: 512.62 Giop/s
24-bit Integer: 511.965 Giop/s

system · 2013 年2 月 4 日 14:11

感谢楼主发贴。

但是虽然此2卡都是fermi, 512Cores, sm_20。但是他们的频率不同。这样是不公平的。

我直接给出楼主正确结果：
折算同频下：
GTX580 / C2070
float性能: 100%
double: 25%
int32: 100%
即他们除了double前者比后者慢4倍外，float和int32两者毫无区别，谁也不快，谁也不慢。

这个结果无需置疑。

感谢楼主亲身测试并发贴，
祝楼主新年愉快！

system · 2013 年2 月 4 日 14:13

楼主亲身测试，回馈论坛，特置顶让大家学习。

并同时鼓励其他会员也发心得贴和经验贴。

system · 2013 年2 月 4 日 14:45

谢谢版主！
我认为“折算同频”意义不是很大，毕竟GTX580 和 C2070 正常频率一般也固定不变了。
就像我们比较 i7-2600 和 i5-2500 的性能，也不会把他们折算到同频率再比较。
对于一般用户来说，“折算同频”反而会产生误导，不了解二者真实的差别。

system · 2013 年2 月 4 日 14:50

折算同频比较的是架构特性。
原始频率比的是产品性能。

system · 2013 年3 月 14 日 14:33

C2070是GTX580显卡价格5倍左右吧

system · 2013 年3 月 29 日 03:14

真心是贵啊

system · 2013 年3 月 29 日 03:26

1：Telsa系列的特性支持，TCC驱动支持。
2：完整版的双精度能力。
3：显存ECC能力。
4：原厂一年的技术支持。

大致如上。

system · 2013 年3 月 29 日 03:29

非常感谢

system · 2013 年4 月 13 日 23:38

很详细，涨知识了

system · 2013 年4 月 21 日 10:29

新手求高手指点