CUDA profiler 的使用问题

我今天用了一下CUDA profiler, 为什么我的counter里没有 gst uncoalesced 呢?这个有什么硬件要求吗?

另外,一般看程序的效率是看那个GPU Time 还是 CPU Time? 怎么有时候GPU Time小但是CPU Time却大,有时候又反过来(都是同一个项目)。

[ 本帖最后由 图腾部落 于 2010-6-17 11:09 编辑 ]

对1.2 1.3硬件还是看不同尺寸的gst gld有多少
由于1.2 1.3硬件访问显存有一些优化
所以不是说不是合并访问,就是非合并访问,中间的界限要模糊一些
到2.0以后有cache分析方式就更不同了

cpu time和gpu time不同是因为CPU和GPU之间是异步的
在优化内核的时候还是关注GPU时间
CPU时间通过流 异步等手段隐藏

[ 本帖最后由 NvidiaCTC 于 2010-6-16 13:17 编辑 ]

CUDA profiler能测那些参数,如何看有没有有这方面的资料

看profiler手册

那是不是说合并和非合并的gst gld只有1.1 和1.0 的设备用profiler才能测出来?

和profiler版本也有关系

再问一下关于那个合并访问的,一定要从左到右才算合并访问吗?如果从右到左连续的访问算不算合并访问?
我做了那个nv网站上下的exercise里的reverseArray,用了shared memory之后速度好像没啥提升,是不是我显卡太差了的原因?

对1.0、1.1硬件
打乱次序访问是非合并的
对1.2 1.3及以后的硬件
对满足条件的数据类型打乱次序访问也可以合并