关于cuda线程网格与线程快极端问题

设想一个cuda线程网格设置的极端情况。如果每个线程块内的线程数量为1,线程块的数量很大,几万,几十万,几百万,这种情况下,运行的时候编译器内部会进行优化吗,还是每个线程块启动一个warp,然后31个不激活呢?