内核函数里能否使用malloc函数

system · 2012 年2 月 4 日 16:22

大家好，小弟最近刚开始接触cuda编程，现在身边没有实验环境，我想问下内核函数里能否使用malloc函数？
另外，我想每个block都从global memory中各自读取一个大概1M的矩阵，利用多线程将这个矩阵读到share memory中，可是每个multiprocessor的share memory只有16k，我应该怎么解决才好呢？如果一个块只有一个线程，那从global memory中直接读取1M的数据，其latency大概是多少？
第三个问题，哪里可以下载到处理十分巨大的数据量的cuda程序？
烦请各位大哥帮忙，小弟感激不尽，这些天被这些东西实在烦得不行。

system · 2012 年2 月 4 日 16:26

求回复求回复

system · 2012 年2 月 6 日 00:40

fermi架构的gpu可以使用，cuda版本要4.0以上，不过不建议这样做，malloc在gpu上的效率很低。玩玩还是可以的。。呵呵:)

system · 2012 年2 月 9 日 16:00

CUDA 4.0支持在全局存储器上使用new 和delete