share memory的赋值何时生效?

汇报一下:
在我的程序里。使用wrap shuffle和volatile速度一样,考虑到wrap shuffle可以节省share memory,我选用的是 wrap shuffle。
__syncthreads()会导致结果错误,我的程序无法保证block内的每个线程执行的__syncthreads()次数一样,可能是这个原因导致错误。