如何计算kernel函数FLOPS

先举个例子:
kernel函数包含一个1000次的for循环,每个循环中4个加法4个乘法,所以单个kernel函数计算量10008=8000;
grid和blick的规模分别为grid(1,1,1),block(8,8,1);
则总的计算量应该是:8
88000;
假设kernel运行时间为t;
则该程序的运算性能为:8
8*8000/t (FLOPS)。

我上面的方法对不,有那些注意事项?

如果计算的数据是 单精度,就对了