喔喔我似乎了解了!
如果該線程做__threadfence_block()是他等到他存到shared的結果可以被看見後他就往下走了
但是我是要等待大家都把資料存完後才往下走,而等待大家都做到__syncthreads()時保證大家都做完存入shared的指令也可以讓其他人看見,所以是要用__syncthreads()才對
也難怪__threadfence類的指令只出現在reduction相關的程式碼配合著atomic_func使用。
喔喔我似乎了解了!
如果該線程做__threadfence_block()是他等到他存到shared的結果可以被看見後他就往下走了
但是我是要等待大家都把資料存完後才往下走,而等待大家都做到__syncthreads()時保證大家都做完存入shared的指令也可以讓其他人看見,所以是要用__syncthreads()才對
也難怪__threadfence類的指令只出現在reduction相關的程式碼配合著atomic_func使用。