使用cooperative_groups::memcpy_async从global拷贝到shared时,我使用了pingpangbuffer,但是带宽还是只有96%左右,能进一步优化到100%么

如题目。


reduce_compute我用的是一个空实现

详细代码参见: cuda/async_copy/async_copy_test.cu · magic/AIDeploy - Gitee.com