用zerocopy之后,将hostmem和devicemem映射

用zerocopy之后,将hostmem和devicemem映射。。
直接copy那个hostmem到devicemem。。
这两者访问devicemem的速度有什么差别么?

后者会快一些

sigh。。尴尬的还要重新申请一段host的内存。。可能还涉及到memcpy的问题。。这些都是额外耗时啊。。so个人觉得如果不是程序完全是自己写的。。而只是调用cuda函数的话。。用zerocopy没什么太大的优势。。
另外问下用stream的话。。访问速度和copy那个hostmem到devicemem一样么?

直接copy那个hostmem到devicemem快,zerocopy毕竟要维护host和devicemen两块内存,而且要同步

在独立显卡上,后者会快很多。
但是在集成显卡上,。。。速度一样。。。

根据《Best Practice Guide》,对于集成显卡。还是不要从Host->Device来copy了。因为这时,gloabl memory实际上用的就是普通的系统内存。。。你会白白浪费时间的,如果你拷贝。

zerocopy毕竟要维护host和devicemen两块内存
–这个似乎没有的。。。