用纹理的时间问题?

怎样算gpu中程序运行的时间?使用纹理时 会不会影响cudaMemcpy2D( cudaMemcpyDeviceToHost);的时间?在global与texture两种情况下,那种更快呀?