CUDA 3.1中的疑惑

在fermi架构的GPU上支持16路并发,允许多达16个内核同时执行什么意思呢?

现在的架构不是在一个GPU上同时只能运行一个内核吗,在fermi上可以同时运行16个,编程的时候通过流实现