求转换为CUDA并行算法

请大哥门如何进行并行化处理,就是把计算矩阵的值并行化,因为举证是N*M大小的,计算了比较大,小弟先谢过了

[ 本帖最后由 siheng303 于 2010-5-18 14:32 编辑 ]