請問一下
在cuda中
kernel函數的啟動總是異步的
那有個問題
如果像是下面的方法
kernel_run<<<10,10>>>(dev_data, global_return);
cudaMemcpy(host_return, global_return, xxx, cudaMemcpyDeviceToHost);
因為kernel_run是異步的
所以調用之後會馬上返回CPU端執行cudaMemcpy
那問題來了
會不會在kernel_run還沒執行完就將資料copy回來了?
還是說對於gpu來說同步的cudaMemcpy會等kernel_run結束才執行記憶體複製的動作?