有比较通用的实现吗?
还是传回到内存中用CPU算比较快?
reduction已经可以应用到很多地方了,我觉得还算通用,不过不知LS的通用具体指什么。 如果数据在GPU上,传回去显然不靠谱了。虽然reduction本身加速比并不很高。
可以参考一下cudpp
求和转换为比较即可。