请问一个线程访问连续的64Byte满足合并访问的条件吗?
搞不明白合并访问和half-warp啥意思?
这么老的帖子了,偶是落伍了
GPU实际执行时是以warp(32线程)为单位执行的,其中在1.X架构中实际是以 half-warp为单位执行
你一个线程处理这么多,可以用多个线程读进来,放进shared memory 里,再给特定的线程用来处理
请问一个线程访问连续的64Byte满足合并访问的条件吗?
搞不明白合并访问和half-warp啥意思?
这么老的帖子了,偶是落伍了
GPU实际执行时是以warp(32线程)为单位执行的,其中在1.X架构中实际是以 half-warp为单位执行
你一个线程处理这么多,可以用多个线程读进来,放进shared memory 里,再给特定的线程用来处理