如果要用16个源数据来计算一个目标值 怎么用共享内存
shared memory的使用不是由多少个数据计算多少个目标值决定
这里应该主要考虑计算目标值时线程间需不需要用shared进行通信
或者在Tesla架构下能不能用shared memory当cache,实现对显存的合并访问
你可以在每个block内把要计算用到的数据先存入到共享存储器,然后同步,就可以使用共享存储器来加速了
如果要用16个源数据来计算一个目标值 怎么用共享内存
shared memory的使用不是由多少个数据计算多少个目标值决定
这里应该主要考虑计算目标值时线程间需不需要用shared进行通信
或者在Tesla架构下能不能用shared memory当cache,实现对显存的合并访问
你可以在每个block内把要计算用到的数据先存入到共享存储器,然后同步,就可以使用共享存储器来加速了