大家好,小弟最近刚开始接触cuda编程,现在身边没有实验环境,我想问下内核函数里能否使用malloc函数?
另外,我想每个block都从global memory中各自读取一个大概1M的矩阵,利用多线程将这个矩阵读到share memory中,可是每个multiprocessor的share memory只有16k,我应该怎么解决才好呢?如果一个块只有一个线程,那从global memory中直接读取1M的数据,其latency大概是多少?
第三个问题,哪里可以下载到处理十分巨大的数据量的cuda程序?
烦请各位大哥帮忙,小弟感激不尽,这些天被这些东西实在烦得不行。
求回复求回复
fermi架构的gpu可以使用,cuda版本要4.0以上,不过不建议这样做,malloc在gpu上的效率很低。玩玩还是可以的。。呵呵:)
CUDA 4.0支持在全局存储器上使用new 和delete