内建函数问题

请问内建函数是不是比一般的运算指令速度快?
比如__dmul_rn 是不是比 * 快??精度是否一样?
我在用CUDA3.0的时候用内建函数,编译出错,用内建函数是否需要包含什么头文件?
我用的显卡是GTX480

没人知道么?
这个函数是我在《GPU 高性能运算之CUDA》上看到的
我用的CUDA3.0 GTX480显卡,编译出错,解析不了__dmul_rn函数,但是VA都能解析
请问是什么问题?

编译选项开sm_20

打开sm_20,不需要头文件,速度会快,但是精度会有影响

对__dmul_rn来说是没有的
这个只是设置了舍入模式而已