NVIDIA 开发者论坛

使用cooperative_groups::memcpy_async从global拷贝到shared时，我使用了pingpangbuffer，但是带宽还是只有96%左右，能进一步优化到100%么

加速计算 CUDA

user2176 2025 年6 月 26 日 08:16 1

如题目。

reduce_compute我用的是一个空实现

详细代码参见: cuda/async_copy/async_copy_test.cu · magic/AIDeploy - Gitee.com