MPI+CUDA 速度提升?

在Q600上基于cublas实现共轭梯度法求解线性方程组Ax=b 双精度
但是加速比不大,可能是串行部分较多
进一步实现mpi+cuda
加速比几乎没变
那cublas实现共轭梯度法加速比不大的原因是什么呢?
还没分析出来

计算量小,另外你对比的程序是什么?

程序是自己海洋学方面的一个程序
计算量 按说矩阵的维数到了960000*960000

可能处在MPI上,请说具体的情况

将矩阵分块,因是对角占优阵,沿对角线方向分,每个mpi进程负责一块,
在迭代时mpi负责将各块边界信息传递,和汇总总残差,如
MPI_Reduce(…);
MPI_Bcast(…);