参照官方例子Video_Codec_SDK_12.2.72编译生成的工程,为何代码相同,解密相同8K视频OpenGL渲染,GPU使用效率却不同。

开发环境 相关,
OS: Win11;
Cuda tools:cuda_12.6.0_560.76_windows;
IDE: VS2022;
Lib: ffmpeg-n5.1.4-win64-gpl-shared-5.1,freeglut3.0,glew-2.1.0

A:编译官方例子Video_Codec_SDK_12.2.72通过,运行AppDecGL.exe,解码渲染8K视频(MP4)文件,GPU Decode使用率98%左右,7分钟视频4分钟左右时间解码渲染结束。
B: 根据官方例子新建VS2022工程,代码与A代码相同,编译通过生成AppDecGLTest.exe,解码相同渲染8K视频(MP4)文件,GPU Decode使用率只有30%左右,7分钟视频13分钟左右时间解码渲染结束。

问题:为何相同代码编译的程序自己新建程序AppDecGLTest.exe,运行时GPU解码时使用率没有达到官方例子水平。
怀疑是ColorSpace.cu的编译设置原因,官方例子是通过cmake.exe命令编译,自己新建程序是设置为CUDA C/C++文件,不过没有找到具体原因,欢迎知道原因的朋友给与指明方向,非常感谢。