GPU用于稀疏矩阵和向量计算的加速比理论估计

system · 2011 年11 月 12 日 03:08

parallel.gpu.CUDADevice handle

Package: parallel.gpu

Properties:

                  Name: 'Quadro 600'

                 Index: 1

     ComputeCapability: '2.1'

        SupportsDouble: 1

         DriverVersion: 4

    MaxThreadsPerBlock: 1024

      MaxShmemPerBlock: 49152

    MaxThreadBlockSize: [1024 1024 64]

           MaxGridSize: [65535 65535]

             SIMDWidth: 32

           TotalMemory: 1.0417e+009

            FreeMemory: 949575680

   MultiprocessorCount: 2

          ClockRateKHz: 1280000

           ComputeMode: 'Default'

  GPUOverlapsTransfers: 1

KernelExecutionTimeout: 1

      CanMapHostMemory: 1

       DeviceSupported: 1

        DeviceSelected: 1

基本情况：现有如上配置的nvidia显卡，欲用于大规模（2000万阶）稀疏矩阵（为结构化矩阵和非结构化两种）与向量的相乘运算(如CG方法求解过程中）。

问题：理论上，上述nvidia显卡比普通的3.4G HZ的4核CPU最多能快多少倍？最好能给出理论分析过程。

user18 · 2011 年12 月 2 日 09:08

Memery banded。不过600太差，估计还是CPU快