补完:
但是,如果你的thread0访问array[0]而thread15要访问array[32],那么就会出现bank conflict,因为它们都需要通过bank0来访问共享内存(中bank0所管辖的不同的以4B为单位的位置)(另据悉,kepler中为8B)。
[
K20是8B的话,那么共享内存的double访问性能会提升2倍啊~
不过K20性能确实强啊,我同样的double的程序,在M2090上一步需要55ms,而在K20X上是32ms
感谢各位大神
补完:
但是,如果你的thread0访问array[0]而thread15要访问array[32],那么就会出现bank conflict,因为它们都需要通过bank0来访问共享内存(中bank0所管辖的不同的以4B为单位的位置)(另据悉,kepler中为8B)。
[
K20是8B的话,那么共享内存的double访问性能会提升2倍啊~
不过K20性能确实强啊,我同样的double的程序,在M2090上一步需要55ms,而在K20X上是32ms
感谢各位大神