这样用好不好呢?
这个和具体实现有关吧,无法直接评论。
作为典型值来衡量block规模的话,貌似没什么不妥的。
是的。grid shape我们无法讨论,因为在任何指定了block shape后,grid shape是被你的算法需求+你的确定的block shape直接给确定的。也就是在固定的算法/数据规模下/block shape, grid shape你没得选。
那么直接说block shape为(16,16)是否合适呢。。这个得看算法(如同2楼说述)。。没有算法作为典型值,(16,16,1) 的,256个线程的block, 挺好的。
说句题外话,256也是A卡上很多人喜欢的典型值和work group的最大值(APU除外)。
为神马APU除外呢?