问题是这样的:
在host端传递一组数据Data1,
然后通过cudaMemcpy由host端传递到device端,
在device端,将Data1数据copy到shared memory,
通过kernel函数A对数据Data1进行处理,
处理后的数据为Data2;
但是这时候想在device端通过kernel函数B对数据Data2进行进一步处理,
那这时候对于shared memory该进行如何操作呢?
是否需要进行清零操作或其他操作,然后再copy Dada2中的数据??
(因为kernel函数A和B划分block不同,所以数据需要重新拷贝)
其实kernel函数B的作用很简单,交换数据位置,
我的想法就是使接下来的数据满足合并访问的条件
问这样做是否有价值?或者有没有其他的方法?
望不吝赐教,先谢过了。。
把shared中的数据存到全局存储器,再用kernel B处理