请问:内核的内存读取效率(Global Load Throughput)

请问:内核的内存读取效率(Global Load Throughput)是由什么决定的?在 《CUDA C编程权威指南》中的一个例子,作者在Tesla M2070上用nvprof测试内核的内存读取效率(Global Load Throughput)能达到90GB/s,同样的代码,我在P100上测试,读取效率只是19GB/s,我觉得P100应该比M2070的效率高很多才对,为什么反而比M2070效率低呢?