求矩阵行和

我想求一个大规模矩阵每行的和,请问大家有什么好的思路吗?
感觉应该可以借鉴SDK的reduction,可是不知道具体该怎么做,规模比较大,不至于循环每一行用reduction吧,而且sm有限~
希望各位多多赐教~

[ 本帖最后由 图腾部落 于 2010-6-12 11:06 编辑 ]