存储器合并访问

.
(1)short类型的2048×2048的矩阵,每个线程处理矩阵中的一个元素,是不是存在非合并访问丫。(设备计算能力1.1)

因为手册说:线程必须访问32位字。我程序中每个线程访问的是short类型16bit。

(2) 如果存在解决方案是不是cudaMallocPicth?

使用结构体打包就行了,要对齐访问

[ 本帖最后由 yyfn风辰 于 2009-12-21 15:17 编辑 ]