从GUIDE看,CUDA提供了SIMD的执行引擎,也就是说,CUDA的并行性主要是基于指令级的
那么在实际的程序中,如果存在没有依赖关系的两个过程(通俗点说是函数),是否可以实现这两个函数之间的并行执行呢,
用CUDA-C似乎有点困难,用PTX能不能做到,比如指定多少个处理器执行FUNC1,多少个处理器FUNC2。。。。
从GUIDE看,CUDA提供了SIMD的执行引擎,也就是说,CUDA的并行性主要是基于指令级的
那么在实际的程序中,如果存在没有依赖关系的两个过程(通俗点说是函数),是否可以实现这两个函数之间的并行执行呢,
用CUDA-C似乎有点困难,用PTX能不能做到,比如指定多少个处理器执行FUNC1,多少个处理器FUNC2。。。。
fermi可以多内核并发。
之前的也可以再同个grid上实现相同的功能,例如:
switch( blockIdx.y )
{
case 0 : excute FUNC0 along the x blocks; break;
case 1 : excute FUNC1 along the x blocks; break;
…
}