请问,我将数据从HOST 拷贝到 DEVICE端的时间,为什么和将同样数据量的数据从DEVICE端拷贝到HOST端时间不一样,差异很大。
从DEVICE端到HOST端的耗时比从HOST到DEVICE多出一个数量级。这是为什么啊?
我的代码很简单,就是两个矩阵相乘。
你运行SDK中的l例子BandWidthTest,测试一下实际的host-to-device,device-to-host,device-to-device端数据传输的速率,如果你的程序中的速率和测试结果相差很大,可能就是你的测试方法不对。
另一方面,是硬件问题,如果你的主板上的插槽是PCI-E2.0,显卡也是PCI-E2.0,主机与设备端的数据传输速度比PCI-E1.0理论上要快一倍
理论上应当是一样的,你检查一下,可能是你测试的方法不对头,有可能把初始化时间包含进去了,也有可能是硬件问题!