流操作例子

请教个问题:谁有《GPU高性能计算之cuda》的书
第80页的流操作例子中那三个for(int i=0,i<2,++i)能不能合并,对执行有没有影响

可以合并,没有性能影响

对性能有影响

单独做循环是要让不同流间隔的入队

那个合并应该是指


for(int i = 0; i < 2; i++){
   memcpyAsync(..., stream[i]);
   kernelxx<<<..., stream[i]>>>(...);
}

这样可以啊