多显卡运算速度慢于单显卡

最近,我使用CUBLAS做神经网络的训练时,采用CUBLAS库中的CUBLASsgemm函数,
在相同的任务上,为什么用单块GTX590的机器比同时装了两块GTX590的机器还要算的快呢。
十分不解,求助各位。

是不是两块显卡的机器上,要选择使用哪块显卡计算,这个过程比较耗时

关注中,有结果了吗?