在cuda programming guid里,没有提到过64 bit整数的运算速度,只说了双精度浮点的计算速度;
在GPU 高性能运算之cuda里,说DPU既能计算双精度浮点,也能计算64bit整数。
还有其他资料提及DPU么。
在cuda programming guid里,没有提到过64 bit整数的运算速度,只说了双精度浮点的计算速度;
在GPU 高性能运算之cuda里,说DPU既能计算双精度浮点,也能计算64bit整数。
还有其他资料提及DPU么。
楼主您好,我们一般只具体到大的功能划分,例如SP、SFU这个层次,而对内部的double precision unit之类的小电路单位不进行讨论的。
如果真的需要讨论,那么这个说法是错误的。
(1)双精度单元只能处理double运算(执行D开头的指令,例如DFMA)。
(2)fermi/kepler在整数运算上,是纯粹的32位机,不能直接支持64位运算的。
我们看到的所有的64位整数运算,均是将2个或者更多的32-bit int运算的组合。
例如64位加法是1次32位低位加法和1次32位进位加法的组合。
例如64位乘法是1次32位低位乘法和1次32位高位乘法的组合。
例如64位逻辑运算是2次独立的32位逻辑运算的组合的。
感谢来访。
谢谢了。
另外,64位乘法至少是4个32位乘法。
这条您说的的确是对的。这里笔误写成了32x32->64bit需要2条fermi/kepler上的低32位和高32位乘法了。