我调用的是2维的fft 3维的也试过,但是,得到的执行结果 mkl比fft快10+倍。
下边是我测试得到的数据:
[attach]3482[/attach][attach]3481[/attach]
其中200x200是表示fft(200, 200)
执行次数1:代表计时是执行一次fft(200,200)计时
执行次数500:表示计时是对fft(200,200)执行50次计时
线程数(threads):是通过export MKL_NUM_THREADS 调整 mkl 的执行线程数。
左图中是mkl 比 cufft 的加速比。。
cuda官网的测试性能是:
[attach]3484[/attach]
我测到的和官网的结果差异太大了。。
为什么?:3_41:
测试程序的源代码见附件!
[attach]3483[/attach]