cuda中的stream问题

有没有哪位大虾谁对cuda中的stream比较熟悉得 介绍介绍

在我的程序中,我使用流来执行。同样的核函数,发现执行时间变长了?怎么回事啊?
ropp_fm_refrac_1d_grad<<<183,300,0,streams[i]>>>(d_state,d_obs_refrac,d_gradient_refrac);

ropp_fm_refrac_1d_grad<<<183,300]>>>(d_state,d_obs_refrac,d_gradient_refrac);执行时间多了很多。
为什么啊?我想问一下是不是因为stream内存的问题?还是block大小的问题?

[ 本帖最后由 图腾部落 于 2010-6-17 11:09 编辑 ]