一个SM最多同时运行多少个block

网上很多资料说一个SM最多同时运行8个block,这个有什么依据么?哪个资源受限导致的?

如果每个block用的资源都非常少,也只能运行8个block么。这个参数是所有的GPU型号都一样么

楼主您好,该来源是来自手册的。

这个是SM本身的能力限制的(例如,barriers的总数。手册没有给出具体限制的原因。)

以及,如果您还有其他资源(例如,寄存器或者shared memory之类的 )使用较多,将进一步的降低此数值。

以及,关于您的第二个问题,不是所有的GPU都一样的,
3.x系列可以最多运行16个blocks/sm

感谢周末来访。