GPU内核函数的开销

调用的次数很大的话,感觉很耗时啊,是不是调用内核函数的开销要比CPU上的大好多?

空kernel本身执行的开销很小(几个us),但您的一个host线程中的代码进行一次kernel的启动的周期(从开始压入参数到kernel开始异步执行,控制返回您的host code)可能需要较长时间(可能~100us),

如果需要启动很多这种小kernel,建议您同时多个host thread一起启动小kernel, 以提升启动的吞吐率(启动次数/秒)。