grid和block分别是(200,200)和(16,16)

这样用好不好呢?

这个和具体实现有关吧,无法直接评论。
作为典型值来衡量block规模的话,貌似没什么不妥的。

是的。grid shape我们无法讨论,因为在任何指定了block shape后,grid shape是被你的算法需求+你的确定的block shape直接给确定的。也就是在固定的算法/数据规模下/block shape, grid shape你没得选。

那么直接说block shape为(16,16)是否合适呢。。这个得看算法(如同2楼说述)。。没有算法作为典型值,(16,16,1) 的,256个线程的block, 挺好的。

说句题外话,256也是A卡上很多人喜欢的典型值和work group的最大值(APU除外)。

为神马APU除外呢?