测试device-to-host 端cudaMemcpy的运行时间时,前面要加cudaThreadSynchronize()吗?

测试device-to-host 端cudaMemcpy的运行时间时,前面要加cudaThreadSynchronize()吗?
看到大树他们书的56页,程序中写的是:设备端到主机端的memcpy是blocking的,所以测试运行时间时不需要cudaThreadSynchronize()