在SDK中有一个concurrentKernels的示例,我有一个问题请教,如果clock_block kernel如果有足够多的线程block,使得所有的SM都在计算,那么开多个stream,kernel还能同时并行执行吗?我得理解是:因为计算资源固定,所以多个stream中的kernel是串行执行的。也就是执行时间并没有变化,是这样的吗?
在SDK中有一个concurrentKernels的示例,我有一个问题请教,如果clock_block kernel如果有足够多的线程block,使得所有的SM都在计算,那么开多个stream,kernel还能同时并行执行吗?我得理解是:因为计算资源固定,所以多个stream中的kernel是串行执行的。也就是执行时间并没有变化,是这样的吗?