假如有一个大内存块,开始用cudaHostAlloc申请,并做些读写处理,之后不需要读取,希望调整为cudaHostAllocWriteCombined属性以提高带宽。
没有找到合适的办法。
看了cudaHostRegister这个函数,但看说明似乎不能完成如上目的。
既然需要host又读又写,那么就不要使用WC内存。
(以及,你调整成WC内存也传输快不了什么的,现在的及其,一般会在你的PCI-E传输上卡死的)
基本差不多吧?内存和PCIE的带宽感觉上好像是同一个级别的?
LZ您好:
pci-e 3.0 16X,单向传输最大16GB/S的,而且很难跑到峰值。主流高档PC内存带宽在20~40GB/S级别。
而且走pci-e有大量的延迟。
而且走pci-e的部分是完全的device端计算时间之外的开销。
所以请您参考玫瑰斑竹的建议。
祝您好运~