想问一下大大关于取mod与记忆体搬移的时脉问题

最近在跑cuda程式,我在shared memory中用了这两种方式

一种是 算完再搬移
一种是 直接取mod储存到正确位置

其他步骤都不变

想要问一下 有大大知道 这两种方式的理论时脉各是多少?
因为想要分析一下我的程式… 谢谢!!!