第二期有奖讨论：CUDA你知道多少

user21 · 2009 年12 月 21 日 02:16

Cuda技术讨论区http://cuda.itpub.net Cuda Zone专区（http://cuda.it168.com）

活动时间：2009年12月21日-12月27日

日前，卡巴斯基宣布利用NVIDIA CUDA技术将病毒扫描速度提高360倍。让我们感到震惊。

CUDA一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构（ISA）以及GPU内部的并行计算引擎。开发人员可以使用C语言来为CUDA架构编写程序。将来还会支持其它语言，包括FORTRAN以及C++。

在日常生活中，你见到那些CUDA应用场景？对于CUDA你了解多少？欢迎大家对CUDA各抒己见，发表自己的看法。

活动奖励：

到活动截止，认真回贴的PUBer均可获得500PUB币，另外每期有奖讨论我们将评选出三名优秀奖，优秀奖获得者不仅仅能获得500PUB币，还能同时获得价值50元的手机充值卡一张哦（联通/移动都可以），由论坛助理发出。

注：本活动总数四期，每周一期，每期都有3张充值卡送出，机不可失，欢迎大家积极参与！

查看往期讨论：

CUDA版第一期有奖讨论：CPU与GPU之争谁核心？{结束｝
http://cuda.itpub.net/thread-1246282-1-1.html

CUDA版第二期有奖讨论：CUDA你知道多少？｛结束｝中奖结果统计中
http://cuda.itpub.net/thread-1250563-1-1.html

本次三位优秀奖，获奖者为，论坛助理童馨将联系发放礼品：
jinjingsm
chris1244
亭华龙哥

现将认真回答问题，获得奖励人员的id公布如下：
viadeazhu
382564549
chris1244
lovebcb
barcode
jieforest
gaoko
goodhawk
yueyangflash
wysfenghuo007
slip2
shuazi313
robinho.lu
ichiaboss
hppyspring
daibing0061
hailen
lovelelesky
oraclele
shuitin
jinjingsm
yaosj2k
foxclever
ly215197
jinshen1979
abigailhui
sttomy
sammyandy
yanggq
yaosj2k
冰之莹
驦敐蝛澱
stablelu
亭华龙哥
zengshaojie
【风云】
PhaedraC
JuliaHui
DiantheYin
感谢大家对活动的积极参与！:lovely:

viadeazhu · 2009 年12 月 21 日 02:49

sf

huni93 · 2009 年12 月 21 日 02:49

说说CUDA与其他技术的区别?优点是什么?

viadeazhu · 2009 年12 月 21 日 02:50

CUDA 的核心有三个重要抽象概念：线程组层次结构、共享存储器、屏蔽同步（ barrier
synchronization），可轻松将其作为C 语言的最小扩展级公开给程序员。

382564549 · 2009 年12 月 21 日 03:23

CUDA(Compute Unified Device Architecture)，显卡厂商NVidia推出的运算平台。
随着显卡的发展，GPU越来越强大，而且GPU为显示图像做了优化。在计算上已经超越了通用的CPU。如此强大的芯片如果只是作为显卡就太浪费了，因此N卡厂商推出CUDA，让显卡可以用于图像计算以外的目的。
目前只有G80平台的N卡才能使用CUDA，工具集的核心是一个C语言编译器。G80中拥有128个单独的ALU，因此非常适合并行计算，而且数值计算的速度远远优于CPU。
CUDA的SDK中的编译器和开发平台支持Windows、Linux系统，可以与Visual Studio2003集成在一起。
目前这项技术处在起步阶段，仅支持32位系统，编译器不支持双精度数据等问题要在晚些时候解决。当然还有就是Geforce8系列显卡高昂的价格问题了。
CUDA（Compute Unified Device Architecture）是一个新的基础架构，这个架构可以使用GPU来解决商业、工业以及科学方面的复杂计算问题。它是一个完整的GPGPU解决方案，提供了硬件的直接访问接口，而不必像传统方式一样必须依赖图形API接口来实现GPU的访问。在架构上采用了一种全新的计算体系结构来使用GPU提供的硬件资源，从而给大规模的数据计算应用提供了一种比CPU更加强大的计算能力。CUDA采用C语言作为编程语言提供大量的高性能计算指令开发能力，使开发者能够在GPU的强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。
从CUDA体系结构的组成来说，包含了三个部分：开发库、运行期环境和驱动（表2）。
开发库是基于CUDA技术所提供的应用开发库。目前CUDA的1.1版提供了两个标准的数学运算库——CUFFT（离散快速傅立叶变换）和CUBLAS（离散基本线性计算）的实现。这两个数学运算库所解决的是典型的大规模的并行计算问题，也是在密集数据计算中非常常见的计算类型。开发人员在开发库的基础上可以快速、方便的建立起自己的计算应用。此外，开发人员也可以在CUDA的技术基础上实现出更多的开发库。
运行期环境提供了应用开发接口和运行期组件，包括基本数据类型的定义和各类计算、类型转换、内存管理、设备访问和执行调度等函数。基于CUDA开发的程序代码在实际执行中分为两种，一种是运行在CPU上的宿主代码（Host Code），一种是运行在GPU上的设备代码（Device Code）。不同类型的代码由于其运行的物理位置不同，能够访问到的资源不同，因此对应的运行期组件也分为公共组件、宿主组件和设备组件三个部分，基本上囊括了所有在GPGPU开发中所需要的功能和能够使用到的资源接口，开发人员可以通过运行期环境的编程接口实现各种类型的计算。
由于目前存在着多种GPU版本的NVIDIA显卡，不同版本的GPU之间都有不同的差异，因此驱动部分基本上可以理解为是CUDA-enable的GPU的设备抽象层，提供硬件设备的抽象访问接口。CUDA提供运行期环境也是通过这一层来实现各种功能的。目前基于CUDA开发的应用必须有NVIDIA CUDA-enable的硬件支持，NVIDIA公司GPU运算事业部总经理Andy Keane在一次活动中表示：一个充满生命力的技术平台应该是开放的，CUDA未来也会向这个方向发展。由于CUDA的体系结构中有硬件抽象层的存在，因此今后也有可能发展成为一个通用的GPGPU标准接口，兼容不同厂商的GPU产品

CUDA™ 工具包是一种针对支持CUDA功能的GPU（图形处理器）的C语言开发环境。CUDA开发环境包括:
· nvcc C语言编译器
· 适用于GPU（图形处理器）的CUDA FFT和BLAS库
· 分析器
· 适用于GPU（图形处理器）的gdb调试器（在2008年3月推出alpha版）
· CUDA运行时（CUDA runtime）驱动程序（目前在标准的NVIDIA GPU驱动中也提供）
· CUDA编程手册
CUDA开发者软件开发包（SDK）提供了一些范例（附有源代码），以帮助使用者开始CUDA编程。这些范例包括:
· 并行双调排序
· 矩阵乘法
· 矩阵转置
· 利用计时器进行性能评价
· 并行大数组的前缀和（扫描）
· 图像卷积
· 使用Haar小波的一维DWT
· OpenGL和Direct3D图形互操作示例
· CUDA BLAS和FFT库的使用示例
· CPU-GPU C—和C++—代码集成
· 二项式期权定价模型
· Black-Scholes期权定价模型
· Monte-Carlo期权定价模型
· 并行Mersenne Twister（随机数生成）
· 并行直方图
· 图像去噪
· Sobel边缘检测滤波器
· MathWorks MATLAB® 插件 (点击这里下载)
新的基于1.1版CUDA的SDK 范例现在也已经发布了。要查看完整的列表、下载代码，请点击此处。
技术功能
· 在GPU（图形处理器）上提供标准C编程语言
· 为在支持CUDA的NVIDIA GPU（图形处理器）上进行并行计算而提供了统一的软硬件解决方案
· CUDA兼容的GPU（图形处理器）包括很多：从低功耗的笔记本上用的GPU到高性能的，多GPU的系统。
· 支持CUDA的GPU（图形处理器）支持并行数据缓存和线程执行管理器
· 标准FFT（快速傅立叶变换）和BLAS（基本线性代数子程序）数值程序库
· 针对计算的专用CUDA驱动
· 经过优化的，从中央处理器（CPU）到支持CUDA的GPU（图形处理器）的直接上传、下载通道
· CUDA驱动可与OpenGL和DirectX图形驱动程序实现互操作
· 支持Linux 32位/64位以及Windows XP 32位/64位操作系统
· 为了研究以及开发语言的目的，CUDA提供对驱动程序的直接访问，以及汇编语言级的访问

ilovecranberrie · 2009 年12 月 21 日 03:27

不清楚啊，帮顶好了

system · 2009 年12 月 21 日 03:38

CUDA的出现，使一直孤军奋战的CPU终于有了工作伙伴，提高运行速度不再是无限压榨CPU的最高速度，在几百个辛勤的“小弟”的帮助下，CPU从抹桌洗碗的孤单打工族，摇身一变成了部门总管，哪里有工作，指挥小弟们一拥而上。有了CUDA，几乎已到极限的运行速度再提高几百倍不是梦，计算机业似乎踏入了一个全新的领域。
但对于这种速度的提升，前途却不是那么坦荡，开发人员现在可以用C语言编写程序，利用GPU来协助CPU处理数据，听起来似乎万事俱备，但其复杂度却不是C语言编写程序可比的，CUDA编程语言几百页的说明要烂熟于心，这已经不是易事，缺乏专业的开发工具，使编程的第一步难上加难，不管是WINDOWS还是LINUX，在安装了对应的驱动，SDK，工具包之后，还要配合别的软件以及修改N多注册表项，一个字节的修改错误导致的出错提示，让初学者们已经搜尽百度。高手们不断的写出模式包，安装教程，说明，却又被软件版本不断淘洗，某个模式包对应某个版本，某种修改对应某个版本的工具包……
用CUDA编写程序时，又被各种数字的乘法搞晕，栅格中的几行几列，乘以几加几，全部要用编程员的大脑计算，检验起来更是头大如斗，从LOCAL到SHARED，各种不同的缓存速度又不同，可以处理的数据也不同……
开发环境的简化，需要大量程序员的努力，但这种大量努力的前提，是GPU技术的需求性的提高。利用GPU提高运算速度是可行的，但必须是大量单调却统一的计算工作，再分配给所有GPU并发执行，所以提速几百倍只限于一部分工作，而且需要很好的统筹安排，这也要耗费CPU的传统能力和程序员的脑细胞。
然而目前来讲，GPU并不是电脑的“制式武器”，只有NVIDIA的显卡支持此种技术，这使得有些初学者不得不用CPU来模拟GPU的功能，性能方面的数据完全无法参考。打开市场，让NVIDIA显卡成为电脑内必要的组成部分，成了一切进展的前提，由此推断，NVIDIA与两大CPU厂商合作，使其集成在主板上的可能性是很高的，也有可能与笔记本厂商合作，使大部分笔记本带有NVIDIA的显卡，使之有CUDA开发的可能。
总而言之，提高市场占有度，才能提高CUDA开发的可能性和必要性，需求量有了，才能推动开发环境的简化，编程员们才能更快的使用GPU进行大规模的软件开发。CUDA的GPU加速之路似易实难，好象战士的武器升级了，射程增加10倍，以为是激光武器，谁知道到手的是使用专用子弹，操作繁索，根据天气条件命中率不同的越远程狙击步枪。究竟有几个战士会选择这种射程的升级呢？

lovebcb · 2009 年12 月 21 日 03:41

既然CUDA是一种通用并行计算架构，那么可以应用的场合应该比较多。

科研中，仿真计算是经常运用的。一个大规模的仿真，运算量是惊人的。
比如说：模拟华北区域电网中，所有风力发电场的调度和监控。事实上，使用CUDA技术，进行模拟仿真，将极大的提高仿真速度和效率。

在实际应用中，也不乏应用场合，CUDA技术配合高性能多核CPU，应用于服务器上也是不错的前景。

好技术，所以期待。但希望门槛低点儿，能降低学习成本，毕竟要学的东西太多了。。。

[ 本帖最后由 lovebcb 于 2009-12-22 14:36 编辑 ]

barcode · 2009 年12 月 21 日 03:46

CUDA的出现，让GPU替代CPU成为可能。我相信有这种可能性。

system · 2009 年12 月 21 日 03:48

确实要学的东西太多了，编程起来也太麻烦，希望CUDA能被广泛需要，然后开发环境就可以不断简化，这一步不知道要等多久，现在才仅仅一年

duhouchen · 2009 年12 月 21 日 04:06

CUDA（Compute Unified Device Architecture）是一个新的基础架构，这个架构可以使用GPU来解决商业、工业以及科学方面的复杂计算问题。它是一个完整的GPGPU解决方案，提供了硬件的直接访问接口，而不必像传统方式一样必须依赖图形API接口来实现GPU的访问。在架构上采用了一种全新的计算体系结构来使用GPU提供的硬件资源，从而给大规模的数据计算应用提供了一种比CPU更加强大的计算能力。CUDA采用C语言作为编程语言提供大量的高性能计算指令开发能力，使开发者能够在GPU的强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。
从CUDA体系结构的组成来说，包含了三个部分：开发库、运行期环境和驱动（表2）。
开发库是基于CUDA技术所提供的应用开发库。目前CUDA的1.1版提供了两个标准的数学运算库——CUFFT（离散快速傅立叶变换）和CUBLAS（离散基本线性计算）的实现。这两个数学运算库所解决的是典型的大规模的并行计算问题，也是在密集数据计算中非常常见的计算类型。开发人员在开发库的基础上可以快速、方便的建立起自己的计算应用。此外，开发人员也可以在CUDA的技术基础上实现出更多的开发库。
运行期环境提供了应用开发接口和运行期组件，包括基本数据类型的定义和各类计算、类型转换、内存管理、设备访问和执行调度等函数。基于CUDA开发的程序代码在实际执行中分为两种，一种是运行在CPU上的宿主代码（Host Code），一种是运行在GPU上的设备代码（Device Code）。不同类型的代码由于其运行的物理位置不同，能够访问到的资源不同，因此对应的运行期组件也分为公共组件、宿主组件和设备组件三个部分，基本上囊括了所有在GPGPU开发中所需要的功能和能够使用到的资源接口，开发人员可以通过运行期环境的编程接口实现各种类型的计算。
由于目前存在着多种GPU版本的NVIDIA显卡，不同版本的GPU之间都有不同的差异，因此驱动部分基本上可以理解为是CUDA-enable的GPU的设备抽象层，提供硬件设备的抽象访问接口。CUDA提供运行期环境也是通过这一层来实现各种功能的。目前基于CUDA开发的应用必须有NVIDIA CUDA-enable的硬件支持，NVIDIA公司GPU运算事业部总经理Andy Keane在一次活动中表示：一个充满生命力的技术平台应该是开放的，CUDA未来也会向这个方向发展。由于CUDA的体系结构中有硬件抽象层的存在，因此今后也有可能发展成为一个通用的GPGPU标准接口，兼容不同厂商的GPU产品
CUDA的出现，使一直孤军奋战的CPU终于有了工作伙伴，提高运行速度不再是无限压榨CPU的最高速度，在几百个辛勤的“小弟”的帮助下，CPU从抹桌洗碗的孤单打工族，摇身一变成了部门总管，哪里有工作，指挥小弟们一拥而上。有了CUDA，几乎已到极限的运行速度再提高几百倍不是梦，计算机业似乎踏入了一个全新的领域。
但对于这种速度的提升，前途却不是那么坦荡，开发人员现在可以用C语言编写程序，利用GPU来协助CPU处理数据，听起来似乎万事俱备，但其复杂度却不是C语言编写程序可比的，CUDA编程语言几百页的说明要烂熟于心，这已经不是易事，缺乏专业的开发工具，使编程的第一步难上加难，不管是WINDOWS还是LINUX，在安装了对应的驱动，SDK，工具包之后，还要配合别的软件以及修改N多注册表项，一个字节的修改错误导致的出错提示，让初学者们已经搜尽百度。高手们不断的写出模式包，安装教程，说明，却又被软件版本不断淘洗，某个模式包对应某个版本，某种修改对应某个版本的工具包……
用CUDA编写程序时，又被各种数字的乘法搞晕，栅格中的几行几列，乘以几加几，全部要用编程员的大脑计算，检验起来更是头大如斗，从LOCAL到SHARED，各种不同的缓存速度又不同，可以处理的数据也不同……
开发环境的简化，需要大量程序员的努力，但这种大量努力的前提，是GPU技术的需求性的提高。利用GPU提高运算速度是可行的，但必须是大量单调却统一的计算工作，再分配给所有GPU并发执行，所以提速几百倍只限于一部分工作，而且需要很好的统筹安排，这也要耗费CPU的传统能力和程序员的脑细胞。
然而目前来讲，GPU并不是电脑的“制式武器”，只有NVIDIA的显卡支持此种技术，这使得有些初学者不得不用CPU来模拟GPU的功能，性能方面的数据完全无法参考。打开市场，让NVIDIA显卡成为电脑内必要的组成部分，成了一切进展的前提，由此推断，NVIDIA与两大CPU厂商合作，使其集成在主板上的可能性是很高的，也有可能与笔记本厂商合作，使大部分笔记本带有NVIDIA的显卡，使之有CUDA开发的可能。
总而言之，提高市场占有度，才能提高CUDA开发的可能性和必要性，需求量有了，才能推动开发环境的简化，编程员们才能更快的使用GPU进行大规模的软件开发。

duhouchen · 2009 年12 月 21 日 04:07

CUDA的出现，使一直孤军奋战的CPU终于有了工作伙伴，提高运行速度不再是无限压榨CPU的最高速度，在几百个辛勤的“小弟”的帮助下，CPU从抹桌洗碗的孤单打工族，摇身一变成了部门总管，哪里有工作，指挥小弟们一拥而上。有了CUDA，几乎已到极限的运行速度再提高几百倍不是梦，计算机业似乎踏入了一个全新的领域。
但对于这种速度的提升，前途却不是那么坦荡，开发人员现在可以用C语言编写程序，利用GPU来协助CPU处理数据，听起来似乎万事俱备，但其复杂度却不是C语言编写程序可比的，CUDA编程语言几百页的说明要烂熟于心，这已经不是易事，缺乏专业的开发工具，使编程的第一步难上加难，不管是WINDOWS还是LINUX，在安装了对应的驱动，SDK，工具包之后，还要配合别的软件以及修改N多注册表项，一个字节的修改错误导致的出错提示，让初学者们已经搜尽百度。高手们不断的写出模式包，安装教程，说明，却又被软件版本不断淘洗，某个模式包对应某个版本，某种修改对应某个版本的工具包……
用CUDA编写程序时，又被各种数字的乘法搞晕，栅格中的几行几列，乘以几加几，全部要用编程员的大脑计算，检验起来更是头大如斗，从LOCAL到SHARED，各种不同的缓存速度又不同，可以处理的数据也不同……
开发环境的简化，需要大量程序员的努力，但这种大量努力的前提，是GPU技术的需求性的提高。利用GPU提高运算速度是可行的，但必须是大量单调却统一的计算工作，再分配给所有GPU并发执行，所以提速几百倍只限于一部分工作，而且需要很好的统筹安排，这也要耗费CPU的传统能力和程序员的脑细胞。
然而目前来讲，GPU并不是电脑的“制式武器”，只有NVIDIA的显卡支持此种技术，这使得有些初学者不得不用CPU来模拟GPU的功能，性能方面的数据完全无法参考。打开市场，让NVIDIA显卡成为电脑内必要的组成部分，成了一切进展的前提，由此推断，NVIDIA与两大CPU厂商合作，使其集成在主板上的可能性是很高的，也有可能与笔记本厂商合作，使大部分笔记本带有NVIDIA的显卡，使之有CUDA开发的可能。
总而言之，提高市场占有度，才能提高CUDA开发的可能性和必要性，需求量有了，才能推动开发环境的简化，编程员们才能更快的使用GPU进行大规模的软件开发。CUDA的GPU加速之路似易实难，好象战士的武器升级了，射程增加10倍，以为是激光武器，谁知道到手的是使用专用子弹，操作繁索，根据天气条件命中率不同的越远程狙击步枪。究竟有几个战士会选择这种射程的升级呢？

T-McGrady1 · 2009 年12 月 21 日 04:15

现在CPU都几核了,CUDA啥时能赶的上啊

jieforest · 2009 年12 月 21 日 04:26

支持！

CUDA目前还属于前沿技术，相关的应用以及工具都还不算多，而且功能也有限。
下面先介绍一款工具：
在支持CUDA的GPU Caps Viewer 1.7.0发布以后，沉寂了半年之久，Geek3d终于放出了GPU Caps Viewer 1.8.0，这个新版本加入了OpenCL和OpenGL 3的支持，推荐大家下载。与 GPU-Z不同，GPU Caps Viewer的检测很全面，特别是OpenGL的检测，附带检查CPU主频，内存容量等。如果你的显卡支持OpenGL 2.0，那么你可以使用软件自带的测试工具进行一下测试，最低需要NVIDIA Geforce 5或者ATI Radeon 9600以上显卡。

下面是GPU Caps Viewer 1.8.0详细更新内容：

1.新增对OpenCL GPU/CPU demo的支持
2.新增两个OpenGL 3 demo
3.新增OpenCL面板支持OpenCL设备、
4.Radeon显卡可显示核心和显存频率（待机/UVD/3D）
5.新增GPU计算确认框
6.首个面板重新排列，显示重要信息
7.修正一些问题

[ 本帖最后由 jieforest 于 2009-12-23 20:00 编辑 ]

gaoko · 2009 年12 月 21 日 04:28

CUDA的性能，效率，执行率远比不上CPU，就像486跟奔四
IT硬件产品目前准求的是高性价比，产品质量和性能上 CPU已经满足目前生活和工作需要，GPU单就性能上就有差距

goodhawk · 2009 年12 月 21 日 04:43

似乎是比较新的技术, 但是看起来还是比较繁琐的.

FORTRAN 的确是不错的选择, 在复杂的数据运算的时候非常有利.

期望能类似于java一样, 做个一致的接口, 让其他的语言进行呼叫就好了.

yueyangflash · 2009 年12 月 21 日 04:51

卡巴斯基扫描快了360倍并不能代表什么，并不能说GPU的并行比CPU的并行快！
那么卡巴基于CPU的并行能提高多少呢，
数据是在什么样的情况下得到了，
感觉鼓吹的成分太大了！

system · 2009 年12 月 21 日 04:55

CUDA（Compute Unified Device Architecture）是一个新的基础架构，这个架构可以使用GPU来解决商业、工业以及科学方面的复杂计算问题。它是一个完整的GPGPU解决方案，提供了硬件的直接访问接口，而不必像传统方式一样必须依赖图形API接口来实现GPU的访问。在架构上采用了一种全新的计算体系结构来使用GPU提供的硬件资源，从而给大规模的数据计算应用提供了一种比CPU更加强大的计算能力。CUDA采用C语言作为编程语言提供大量的高性能计算指令开发能力，使开发者能够在GPU的强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。
从CUDA体系结构的组成来说，包含了三个部分：开发库、运行期环境和驱动（表2）。
开发库是基于CUDA技术所提供的应用开发库。目前CUDA的1.1版提供了两个标准的数学运算库——CUFFT（离散快速傅立叶变换）和CUBLAS（离散基本线性计算）的实现。这两个数学运算库所解决的是典型的大规模的并行计算问题，也是在密集数据计算中非常常见的计算类型。开发人员在开发库的基础上可以快速、方便的建立起自己的计算应用。此外，开发人员也可以在CUDA的技术基础上实现出更多的开发库。
运行期环境提供了应用开发接口和运行期组件，包括基本数据类型的定义和各类计算、类型转换、内存管理、设备访问和执行调度等函数。基于CUDA开发的程序代码在实际执行中分为两种，一种是运行在CPU上的宿主代码（Host Code），一种是运行在GPU上的设备代码（Device Code）。不同类型的代码由于其运行的物理位置不同，能够访问到的资源不同，因此对应的运行期组件也分为公共组件、宿主组件和设备组件三个部分，基本上囊括了所有在GPGPU开发中所需要的功能和能够使用到的资源接口，开发人员可以通过运行期环境的编程接口实现各种类型的计算。
由于目前存在着多种GPU版本的NVIDIA显卡，不同版本的GPU之间都有不同的差异，因此驱动部分基本上可以理解为是CUDA-enable的GPU的设备抽象层，提供硬件设备的抽象访问接口。CUDA提供运行期环境也是通过这一层来实现各种功能的。目前基于CUDA开发的应用必须有NVIDIA CUDA-enable的硬件支持，NVIDIA公司GPU运算事业部总经理Andy Keane在一次活动中表示：一个充满生命力的技术平台应该是开放的，CUDA未来也会向这个方向发展。由于CUDA的体系结构中有硬件抽象层的存在，因此今后也有可能发展成为一个通用的GPGPU标准接口，兼容不同厂商的GPU产品
CUDA的出现，使一直孤军奋战的CPU终于有了工作伙伴，提高运行速度不再是无限压榨CPU的最高速度，在几百个辛勤的“小弟”的帮助下，CPU从抹桌洗碗的孤单打工族，摇身一变成了部门总管，哪里有工作，指挥小弟们一拥而上。有了CUDA，几乎已到极限的运行速度再提高几百倍不是梦，计算机业似乎踏入了一个全新的领域。
但对于这种速度的提升，前途却不是那么坦荡，开发人员现在可以用C语言编写程序，利用GPU来协助CPU处理数据，听起来似乎万事俱备，但其复杂度却不是C语言编写程序可比的，CUDA编程语言几百页的说明要烂熟于心，这已经不是易事，缺乏专业的开发工具，使编程的第一步难上加难，不管是WINDOWS还是LINUX，在安装了对应的驱动，SDK，工具包之后，还要配合别的软件以及修改N多注册表项，一个字节的修改错误导致的出错提示，让初学者们已经搜尽百度。高手们不断的写出模式包，安装教程，说明，却又被软件版本不断淘洗，某个模式包对应某个版本，某种修改对应某个版本的工具包……
用CUDA编写程序时，又被各种数字的乘法搞晕，栅格中的几行几列，乘以几加几，全部要用编程员的大脑计算，检验起来更是头大如斗，从LOCAL到SHARED，各种不同的缓存速度又不同，可以处理的数据也不同……
开发环境的简化，需要大量程序员的努力，但这种大量努力的前提，是GPU技术的需求性的提高。利用GPU提高运算速度是可行的，但必须是大量单调却统一的计算工作，再分配给所有GPU并发执行，所以提速几百倍只限于一部分工作，而且需要很好的统筹安排，这也要耗费CPU的传统能力和程序员的脑细胞。
然而目前来讲，GPU并不是电脑的“制式武器”，只有NVIDIA的显卡支持此种技术，这使得有些初学者不得不用CPU来模拟GPU的功能，性能方面的数据完全无法参考。打开市场，让NVIDIA显卡成为电脑内必要的组成部分，成了一切进展的前提，由此推断，NVIDIA与两大CPU厂商合作，使其集成在主板上的可能性是很高的，也有可能与笔记本厂商合作，使大部分笔记本带有NVIDIA的显卡，使之有CUDA开发的可能。
总而言之，提高市场占有度，才能提高CUDA开发的可能性和必要性，需求量有了，才能推动开发环境的简化，编程员们才能更快的使用GPU进行大规模的软件开发。

system · 2009 年12 月 21 日 05:03

我来说一下，下面是我的参考：
CUDA(Compute Unified Device Architecture)，显卡厂商NVidia推出的运算平台。
随着显卡的发展，GPU越来越强大，而且GPU为显示图像做了优化。在计算上已经超越了通用的CPU。如此强大的芯片如果只是作为显卡就太浪费了，因此N卡厂商推出CUDA，让显卡可以用于图像计算以外的目的。
目前只有G80平台的N卡才能使用CUDA，工具集的核心是一个C语言编译器。G80中拥有128个单独的ALU，因此非常适合并行计算，而且数值计算的速度远远优于CPU。
CUDA的SDK中的编译器和开发平台支持Windows、Linux系统，可以与Visual Studio2003集成在一起。
目前这项技术处在起步阶段，仅支持32位系统，编译器不支持双精度数据等问题要在晚些时候解决。当然还有就是Geforce8系列显卡高昂的价格问题了。
CUDA（Compute Unified Device Architecture）是一个新的基础架构，这个架构可以使用GPU来解决商业、工业以及科学方面的复杂计算问题。它是一个完整的GPGPU解决方案，提供了硬件的直接访问接口，而不必像传统方式一样必须依赖图形API接口来实现GPU的访问。在架构上采用了一种全新的计算体系结构来使用GPU提供的硬件资源，从而给大规模的数据计算应用提供了一种比CPU更加强大的计算能力。CUDA采用C语言作为编程语言提供大量的高性能计算指令开发能力，使开发者能够在GPU的强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。
从CUDA体系结构的组成来说，包含了三个部分：开发库、运行期环境和驱动（表2）。
开发库是基于CUDA技术所提供的应用开发库。目前CUDA的1.1版提供了两个标准的数学运算库——CUFFT（离散快速傅立叶变换）和CUBLAS（离散基本线性计算）的实现。这两个数学运算库所解决的是典型的大规模的并行计算问题，也是在密集数据计算中非常常见的计算类型。开发人员在开发库的基础上可以快速、方便的建立起自己的计算应用。此外，开发人员也可以在CUDA的技术基础上实现出更多的开发库。
运行期环境提供了应用开发接口和运行期组件，包括基本数据类型的定义和各类计算、类型转换、内存管理、设备访问和执行调度等函数。基于CUDA开发的程序代码在实际执行中分为两种，一种是运行在CPU上的宿主代码（Host Code），一种是运行在GPU上的设备代码（Device Code）。不同类型的代码由于其运行的物理位置不同，能够访问到的资源不同，因此对应的运行期组件也分为公共组件、宿主组件和设备组件三个部分，基本上囊括了所有在GPGPU开发中所需要的功能和能够使用到的资源接口，开发人员可以通过运行期环境的编程接口实现各种类型的计算。
由于目前存在着多种GPU版本的NVIDIA显卡，不同版本的GPU之间都有不同的差异，因此驱动部分基本上可以理解为是CUDA-enable的GPU的设备抽象层，提供硬件设备的抽象访问接口。CUDA提供运行期环境也是通过这一层来实现各种功能的。目前基于CUDA开发的应用必须有NVIDIA CUDA-enable的硬件支持，NVIDIA公司GPU运算事业部总经理Andy Keane在一次活动中表示：一个充满生命力的技术平台应该是开放的，CUDA未来也会向这个方向发展。由于CUDA的体系结构中有硬件抽象层的存在，因此今后也有可能发展成为一个通用的GPGPU标准接口，兼容不同厂商的GPU产品

CUDA™ 工具包是一种针对支持CUDA功能的GPU（图形处理器）的C语言开发环境。CUDA开发环境包括:
· nvcc C语言编译器
· 适用于GPU（图形处理器）的CUDA FFT和BLAS库
· 分析器
· 适用于GPU（图形处理器）的gdb调试器（在2008年3月推出alpha版）
· CUDA运行时（CUDA runtime）驱动程序（目前在标准的NVIDIA GPU驱动中也提供）
· CUDA编程手册
CUDA开发者软件开发包（SDK）提供了一些范例（附有源代码），以帮助使用者开始CUDA编程。这些范例包括:
· 并行双调排序
· 矩阵乘法
· 矩阵转置
· 利用计时器进行性能评价
· 并行大数组的前缀和（扫描）
· 图像卷积
· 使用Haar小波的一维DWT
· OpenGL和Direct3D图形互操作示例
· CUDA BLAS和FFT库的使用示例
· CPU-GPU C—和C++—代码集成
· 二项式期权定价模型
· Black-Scholes期权定价模型
· Monte-Carlo期权定价模型
· 并行Mersenne Twister（随机数生成）
· 并行直方图
· 图像去噪
· Sobel边缘检测滤波器
· MathWorks MATLAB® 插件 (点击这里下载)
新的基于1.1版CUDA的SDK 范例现在也已经发布了。要查看完整的列表、下载代码，请点击此处。
技术功能
· 在GPU（图形处理器）上提供标准C编程语言
· 为在支持CUDA的NVIDIA GPU（图形处理器）上进行并行计算而提供了统一的软硬件解决方案
· CUDA兼容的GPU（图形处理器）包括很多：从低功耗的笔记本上用的GPU到高性能的，多GPU的系统。
· 支持CUDA的GPU（图形处理器）支持并行数据缓存和线程执行管理器
· 标准FFT（快速傅立叶变换）和BLAS（基本线性代数子程序）数值程序库
· 针对计算的专用CUDA驱动
· 经过优化的，从中央处理器（CPU）到支持CUDA的GPU（图形处理器）的直接上传、下载通道
· CUDA驱动可与OpenGL和DirectX图形驱动程序实现互操作
· 支持Linux 32位/64位以及Windows XP 32位/64位操作系统
· 为了研究以及开发语言的目的，CUDA提供对驱动程序的直接访问，以及汇编语言级的访问

wysfenghuo007 · 2009 年12 月 21 日 05:09

cuda本身是一个新型的基础架构，它主要利用多线程的并行能力提高运算效率的，因为目前intel的处理器最高支持并行128个线程，但对采用GPU而言，通过多线程并行太轻松了。其实目前的并行计算有好多厂家提出，只不过是由于cuda架构支持C语言，所以才被人们更容易掌握。目前采用GPU还有很长的路要走，包括数据的处理准确性和开发技术。去年参加Yocself论坛，有一个学者提出采用cuda架构，利用GPU运算时数据是不正确的，amd技术总监也没给出一个解释，只是说目前还有很大不足，相信会慢慢解决。cuda的出现，跟我们一个启示就是以后cpu多核不会一直走下去的，肯定会是多核加平台加速的路线。