利用多个流来实现数据传输和核函数执行的异步究竟能提速多少?

利用多个流来实现数据传输和核函数执行的异步究竟能提速多少?