sumOfSquares<<<1, THREAD_NUM, 0>>>(gpudata, result, time);
int sum[THREAD_NUM];
clock_t time_used;
cudaMemcpy(&sum, result, sizeof(int) * THREAD_NUM, cudaMemcpyDeviceToHost);
cudaMemcpy(&time_used, time, sizeof(clock_t),cudaMemcpyDeviceToHost);
在这里
内核启动之后,CPU紧接着拷贝内存,是怎么拷贝的呢?
因为内核有可能还没计算完成
CPU 那端就要从GPU上拷贝内存?
就是说这个内存拷贝 CPU 和 GPU 是怎么保持同步的呢?