网上很多资料说一个SM最多同时运行8个block,这个有什么依据么?哪个资源受限导致的?
如果每个block用的资源都非常少,也只能运行8个block么。这个参数是所有的GPU型号都一样么
?
楼主您好,该来源是来自手册的。
这个是SM本身的能力限制的(例如,barriers的总数。手册没有给出具体限制的原因。)
以及,如果您还有其他资源(例如,寄存器或者shared memory之类的 )使用较多,将进一步的降低此数值。
以及,关于您的第二个问题,不是所有的GPU都一样的,
3.x系列可以最多运行16个blocks/sm
感谢周末来访。