同样规模的矩阵乘在p53上是p52上的5倍?

为什么同样一个规模的矩阵乘在p53(nvidia T1000)上几乎是p52(nvidia P1000)上的五倍?这两款有什么差异导致的呢?