请教个问题:谁有《GPU高性能计算之cuda》的书 第80页的流操作例子中那三个for(int i=0,i<2,++i)能不能合并,对执行有没有影响
额
可以合并,没有性能影响
对性能有影响
单独做循环是要让不同流间隔的入队
那个合并应该是指
for(int i = 0; i < 2; i++){ memcpyAsync(..., stream[i]); kernelxx<<<..., stream[i]>>>(...); }
这样可以啊