关于cuda线程网格与线程快极端问题

zhangdf · 2020 年10 月 25 日 08:40

设想一个cuda线程网格设置的极端情况。如果每个线程块内的线程数量为1，线程块的数量很大，几万，几十万，几百万，这种情况下，运行的时候编译器内部会进行优化吗，还是每个线程块启动一个warp，然后31个不激活呢？