效率有些慢~

我昨天写了几个SAD的程序,可是速度不是很理想,比CPU的要慢一些,主要是相同的功能,在想放进GPU里运行都要分配显存还有把主机中的数据复制进设备存储器中,这样带来了很大的开销,想问下,想这种情况是不是应该用异步的方法了?