cuda计算时线程块与线程块维度优化问题

我计算了一个CFD问题,每个线程计算一个cfd网格点,在线程总数为1024、2048、4096、8192的时候,线程块内1个线程的计算速度比16、32、64的计算速度慢;在线程总数为16384的时候,线程块内1个线程的计算速度比16、32、64的计算速度还快,这是个奇怪的现象。希望大家帮忙分析一下