先举个例子:
kernel函数包含一个1000次的for循环,每个循环中4个加法4个乘法,所以单个kernel函数计算量10008=8000;
grid和blick的规模分别为grid(1,1,1),block(8,8,1);
则总的计算量应该是:888000;
假设kernel运行时间为t;
则该程序的运算性能为:88*8000/t (FLOPS)。
我上面的方法对不,有那些注意事项?
先举个例子:
kernel函数包含一个1000次的for循环,每个循环中4个加法4个乘法,所以单个kernel函数计算量10008=8000;
grid和blick的规模分别为grid(1,1,1),block(8,8,1);
则总的计算量应该是:888000;
假设kernel运行时间为t;
则该程序的运算性能为:88*8000/t (FLOPS)。
我上面的方法对不,有那些注意事项?
如果计算的数据是 单精度,就对了