如果GPU0 拷贝数据到CPU变量temp[0], GPU1 拷贝数据到CPU变量temp[1]; CPU端如何同步呢?其中temp[0] temp[1]都是用cudaHostAlloc分配的,我试了cudaDeviceSynchronize cudaStreamSynchronize同步都不行呢?
如果GPU0 拷贝数据到CPU变量temp[0], GPU1 拷贝数据到CPU变量temp[1]; CPU端如何同步呢?其中temp[0] temp[1]都是用cudaHostAlloc分配的,我试了cudaDeviceSynchronize cudaStreamSynchronize同步都不行呢?