请教:关于gld uncoalesced的问题

各位好,如下代码:

定义
typedef struct align(8)
{
unsigned int nNodeHeader; //生长点
float FValue; //结点F函数值
} Thin_Node;

然后在GPU中这样使用:
global void GPUProcessData2(Thin_Node *pNodes, const int NUM)
{
int tidInGrid = threadIdx.x + blockIdx.x * blockDim.x;

Thin_Node Temp_Node;

for(int i=tidInGrid; i < NUM; i+=blockDim.x*gridDim.x)
{
//temp.nFusion = pNodes[i].nNodeHeader;
Temp_Node = pNodes[i];
。。。
Temp_Node.FValue = (float)(sqrt( Temp_Node.FValue ) );
pNodes[i] = Temp_Node;
}

}

但利用profiler 计算发现,处理100000个Nodes,但给出gld uncoalesced = 200000,

但从上面来看,是符合coalesced的,应该没有什么问题啊?

敬请指教,谢谢!!