help

问题一:cuda结构下如何考虑计算划分和数据划分,有没有相关的理论研究或是参考文献。
问题二:对于一个嵌套循环体在并行时,可不可以并行里层的迭代,在并行时,能够脱掉的循环层数跟什么有关。
问题三:针对cuda结构想弄一个模型,模型的功能是评估或预测一个循环体移植到GPU上的执行时间,预测的时间与CPU的执行时间相比较,从而可以判断此循环是否值得并行化。GPU的执行时间分为三个部分程序的执行时间+数据传输时间+设备启动时间。对于,设备启动时间和数据传输时间都比较容易确定,然而,程序的执行时间因为要考虑计算与访存的重叠,warp调度,以及线程存储器访问情况等等。该如何考虑程序的执行时间,希望各位大牛们给些建议。
对此感兴趣的大牛们小弟在此谢过了。

1.这个得根据你的实际算法来算,可以看看手册最后的资源平衡那部分
2.这个跟相关性有关,得看你的算法到底怎么样
3.这个比较麻烦,相当于是做gpu的过程模拟和规划,可以实现简单的,但是真正很准确的很难

我也只是一个新手,就针对一个迭代说说吧,
我记书上说过,在_device_ _global_函数不支持迭代。
其他几个我也在学习中

这些都比较复杂,你可以参考陈国良院士的书,呵呵

谢谢,各位的回帖,希望感兴趣的朋友,一起交流交流。