fermi的多内核并行

小弟最近入手了一470,想试验一下多内核并行,看sdk中的例子,好像是要多个流才可以,我想问的是在一个流内可以使用不?另外这多个内核是怎样在GPU上执行的?先谢谢各位大牛了!