如果将global memory里的数据copy到shared memory, 那就应该考虑合并访问的问题。。 如果每个thread是将连续的shared memory的数据copy到 不连续的global memory位置,这个对速度和性能有严重的影响么? 如果是的话,有没有什么比较好的解决方案呢? 多谢。。
有严重影响,如果是将连续的global数据copy到不连续的shared,效果会好得多