关于CUDA求数组的最大最小值

有比较通用的实现吗?

还是传回到内存中用CPU算比较快?

reduction已经可以应用到很多地方了,我觉得还算通用,不过不知LS的通用具体指什么。
如果数据在GPU上,传回去显然不靠谱了。虽然reduction本身加速比并不很高。

可以参考一下cudpp

求和转换为比较即可。