cublas cusparse 耗时问题

测试发现有些cublas cusparse 函数耗时较大,不知什么原因
测试程序 共轭梯度法求Ax=b
迭代次数 2000
函数的总耗时分别为
cusparseDcsrmv 64.201954 s
cublasDdot 111.657334 s
cublasDaxpy 0.019073 s

暂时没有找到原因?不知您是否遇到过。

这个不是很正常啊?

是啊,可是还是没有找到问题?
又换了一个算例(矩阵大小约为900000*900000)
各函数的总耗时分别为
cusparseDcsrmv 12.444586 s
cublasDdot 62.754114 s
cublasDaxpy 0.007940 s

感觉Ddot还是相对偏大好多

换了一个算例,并且在每个函数后用了同步,各函数的总耗时分别为
cusparseDcsrmv 57.233769 s
cublasDdot 5.598629 s
cublasDaxpy 7.503384 s

感觉矩阵向量成绩耗时好多呀,问题出在哪呢?

进一步测试
矩阵一点一点的增大
发现矩阵大了,到百万量级,耗时就是大
除了用更好的显卡,还有别的办法吗?

但是 自己在测试中遇到另外一个问题,暂时没有找到原因
矩阵阶数3426033 迭代2000步
每行非零元素个数 cusparseDcsrmv耗时
3 52.09s
6 103.93s
5 55.77s

3到6感觉是近似线性增长,3到5为什么不是?

测试机器内存24G Quadro 600 显存1G 每行非零元素个数6个时,计算中监测内存占用561M