-
Global Memory Load/Store Efficiency
这个指标是反映Global Memory合并访问的情况吗,如果这个指标很低,是不是表明合并访问条件没有得到满足? -
Instruction Replay Overhead
这个指标是什么含义?我在手册上没有看到过Replay的解释。如果这个值比较大(我的程序是60%),应该从什么方面着手考虑进行优化呢?
补充一下,我用的是GTX560Ti,计算能力2.1,VisualProfiler 5
LZ您好:
1:您可以参阅一下profiler自带的文档,CUDA Profiler User Guide,该文档随Toolkit发放。您可以在Metrics Reference章节看到各个参数的定义。
2:您的第二个问题,还可以参阅下如下的帖子:
http://cudazone.nvidia.cn/forum/forum.php?mod=viewthread&tid=7041&extra=&page=1
大致如此,供您参考。
感谢您深夜来访,祝您好运~
感谢版主深夜答疑,我明天到单位再认真学习一下