最近在跑cuda程式,我在shared memory中用了这两种方式
一种是 算完再搬移 一种是 直接取mod储存到正确位置
其他步骤都不变
想要问一下 有大大知道 这两种方式的理论时脉各是多少? 因为想要分析一下我的程式… 谢谢!!!