求助(关于CUBLAS)

我想把(41949)和(194974)的两个矩阵相乘,用CUBLAS发现速度实在太慢,连2GFLOPS都不到,我怀疑是不是我的参数设错了。求问这种情况下的cublasSgemm函数的参数到底该怎么设才对呢,多谢了! 这两个包括结果矩阵都是用的C的行主元存储的

d_A =矩阵(41949),存储在GPU中;
d_B =矩阵(1949
74),存储在GPU中;
d_C =矩阵(4*74),存储在GPU中;
float alpha = 1.0f;
float beta = 0.0f;
cublasSgemm(‘n’, ‘n’, C的列, C的行, A的列, alpha, d_B, B的列, d_A, A的列, beta, d_C, C的列);

看来我没用错啊,可是为什么CUBLAS算这个矩阵相乘这么慢呢,只有一点几G。

你用的啥卡?
A矩阵有点小,估计怎么着也不会太高了。

你用的啥卡?
A矩阵有点小,估计怎么着也不会太高了。

我用时是2.9ms左右。