如何计算一个CUDA程序的GFLOPS数啊

可用用profiler算么?
或者手算?
总之求计算方法,谢谢了:╮(╯▽╰)╭