求教local mem的问题

我的程序消耗了较多的寄存器,导致很多数据被放到了local mem里。我现在把程序改为把很多计算过程中的变量都改放到shared mem里,但是从profiler里看竟然load到local mem里的数据更大了一倍,这是为什么呢?……

我从Profiler里发现,开个shared mem的数组去读global mem里的数据,有可能增加local load,但不会增加local store。
是不是这个过程中可能需要点register去中转,而register不够时就用local mem去中转呢?

弱弱的问一句,你是怎么使用哪个profile的哪?能写篇博客讲讲吗?或者例子讲讲。。

launch编译出来的那些exe文件(windows下),说明文件或者书里都有啦

实际上我这么做了,但是失败了。。。。:(,谢谢你的回复哈。你的问题我帮不了你。