资料上说block最好为16*16,可是4500是不能被16整除的,
这时候譔怎么办呢?
资料上说block最好为16*16,可是4500是不能被16整除的,
这时候譔怎么办呢?
使用多个block
也就是说BLOCK不是16的倍数大小也行吗?
你的意思是block大小必须设置为4500?
我的意思是每个block还可以是256个线程,但是使用(int)ceil(4500/256)个block
由于我的网格是5090=4500,BLOCK大小为(16,16),
那么最终填充后的网格线程为6496=6144,
于是增加了将近40%的计算量,所以说是不是有点得不尝失呢,
谢
减小网络尺寸,怎么样?比如(8,8)