cudaThreadSynchronize()对程序的影响有多大?

在程序中,每个核函数之后加上cudaThreadSynchronize()能保证核函数的同步执行,可是如果不加呢,会对以后的流程中的核函数造成影响吗?
后面的核函数用到前面的执行结果?