怎样优化滤波程序

system · 2010 年12 月 14 日 02:35

在做图像处理的程序，就是三维图像滤波来去噪声的问题。

是局部滤波，也就是新图像的每一个点的值，是原始图像对应点周围一定范围内的点的线性叠加。

譬如 256 X 256 X 256 的图像第（128， 128， 128）点的值由原始图像的（108:148， 108:148， 108:148）的小块区域决定。

C程序大致如下

for(k=0; k<256; k++){
for(j=0; j<256; j++){
for(i=0;i<256;i++){

NewImage(k256256+j256+i) = 0.0
for(k1 = k - 20; k1 < k + 20, k1++){
for(j1 = j - 20; j1 < j + 20; j1++){
for(i1 = i - 20; i1 < i + 20; i1++){
NewImage(k256256+j256+i) += OldImage(k1256256 + j1 * 256 + i ) * coeff(k12020 + j1 * 20 + i1);

}
}

}

}
}
}
内循环边界做了限制，不是 k-20 和k+20那么直接，这里为了书写方便就这样用了。
这样的程序怎么优化？

我只是很初级的入门者，
就把最外面两重循环改并行，改成 cuda程序，就得到
global void Matfilter(float* OldImage, float* NewImage , float* coeff){
int k = blockIdx.x * blockDim.x + threadIdx.x;
int j = blockIdx.y * blockDim.y + threadIdx.y;
for(i=0;i<256;i++){

NewImage(k256256+j256+i) = 0.0
for(k1 = k - 20; k1 < k + 20, k1++){
for(j1 = j - 20; j1 < j + 20; j1++){
for(i1 = i - 20; i1 < i + 20; i1++){
NewImage(k256256+j256+i) += OldImage(k1256256 + j1 * 256 + i ) * coeff(k12020 + j1 * 20 + i1);

}
}

}
coeff是已知的系数矩阵。

这样在 tesla c1060上只有6倍的速度。
很不优化。
但由于每个线程都要读取很大范围的数据（OldImage), 我也不知道该则样用共享存储器（ shared memory）.
请大侠赐教怎样改上面的程序和优化它，非常感激。

system · 2010 年12 月 14 日 02:42

上面coeff写的有问题。应该是

coeff((k1-k+20)4040 + (j1-j+20)*40 + (i1-i+20))

coeffs是 40 X 40 X 40的矩阵。和小区块大小一致

xiexie

system · 2010 年12 月 15 日 14:39

有什么办法和建议吗？我好多程序，都碰到这样的要求。
数据不是完全独立的，要被不同的块读取。
怎样才能优化呢？
非常感谢

system · 2011 年1 月 28 日 05:56

晕乎