求助。。。
我对程序里6个没有相关的函数分别使用不同的cuda stream,但是其结果只有20%左右的加速,而这6个函数占总的执行时间的一半以上(使用默认流的情况下)。
我用nvvp查看运行情况,发现在数据量较大的情况下(百万级)并没有达到理想的并发6个流并发,而是各个流执行的重叠时间特别少。当我减少数据量(万级),发现虽然6个流能同时执行,但其每个流执行的时间是只使用默认流的两倍左右。是因为在流并发时切换消耗过多导致单个流的执行时间增加吗?
使用的GPU是 1080ti 和 v100
(因为研究关系,代码不能上传。。。)