cuda数组优化问题

在cuda函数中声明一个数组,好像编译器会自动将其分配到local memory中,如果要对它进行频繁的读写会大大降低程序的性能。有没什么方法能优化函数中的局部数组变量(好像不太适合用共享存储器)?