官方能否出一些适配大模型的用例和配置

买DGX spark之前在用3090 24G跑qwen3.5:35B A3B的模型,都是民间攻略,可以妥妥跑100t/s (64k上下文),50+t/s (200k上下文)。花了30k买了DGX spark, 35B 20t/s, 122b 15t/s (llama)。vllm一堆问题,参考用例都是7B,9B,我买128G脑子有屎。