矩阵转置的共享存储器优化版,将sharememory设置成blockdim*(blockdim+1),如何消除bank conflict?
在读的过程中,将连续的16*16数据存入sharememory[16][16]中,sharememory的第17列是空的?
half warp是16,那么thread0和thread16本来就不在一个half warp中,就不应该存在bank conflict了呀?那么他们即使放在一个bank里也是不是没有问题?
矩阵转置的共享存储器优化版,将sharememory设置成blockdim*(blockdim+1),如何消除bank conflict?
在读的过程中,将连续的16*16数据存入sharememory[16][16]中,sharememory的第17列是空的?
half warp是16,那么thread0和thread16本来就不在一个half warp中,就不应该存在bank conflict了呀?那么他们即使放在一个bank里也是不是没有问题?