有人可以讲解一下CUFFT的具体算法模型吗?

最近项目需要用到FFT,有几个疑问:
1.NV已经提供了一个CUFFT,但是以前许多人说性能不是很好,当时因为不用也没有关注,不知道现在新的CUFFT 3.1版本的性能还是不济吗?
2.不知道有人研究过CUFFT的基本算法模型是怎么样的呢?想深入了解一下,看看能不能有所启示。
请各位大牛赐教,先谢了!