深入浅出cuda里的矩阵相乘

问大家一个问题:我运行深入浅出cuda里的矩阵相乘的最基本 的程序,输出结果时发现误差是正确的,而时间却达到14s。。。这是什么问题啊
求高手指教

同求解中。。。。。。

那个程序我也是前段时间刚调,没什么问题啊。输出结果也很正常啊:0.08(25.00GFLOPS)