Jetson TX2板GPU计算第一次耗时长

tx2板在进行GPU计算时,循环执行一样的kernel函数100次,第一次耗时100ms以上,之后时间可稳定在50ms,为什么第一次耗时会变长呢?之后为什么可以趋于稳定?如果GPU计算之后加个sleep(100ms),同样循环100次,那么这100次的时间波动性很大,且都大于50ms,为什么?这种情况如何让GPU计算时间稳定下来?