共享存储器的问题

现在我有两个16X16的矩阵,每个元素一一对应求SAD值(两个数的绝对值之差),是直接调用这两个矩阵取完绝对值之差后在存进共享存储器中好,还是进入内核函数后先把这两个矩阵读进共享存储器中好?