. (1)short类型的2048×2048的矩阵,每个线程处理矩阵中的一个元素,是不是存在非合并访问丫。(设备计算能力1.1)
因为手册说:线程必须访问32位字。我程序中每个线程访问的是short类型16bit。
(2) 如果存在解决方案是不是cudaMallocPicth?
使用结构体打包就行了,要对齐访问
[ 本帖最后由 yyfn风辰 于 2009-12-21 15:17 编辑 ]