官方能否出一些适配大模型的用例和配置

买DGX spark之前在用3090 24G跑qwen3.5:35B A3B的模型,都是民间攻略,可以妥妥跑100t/s (64k上下文),50+t/s (200k上下文)。花了30k买了DGX spark, 35B 20t/s, 122b 15t/s (llama)。vllm一堆问题,参考用例都是7B,9B,我买128G脑子有屎。

1 个赞

spark的优势是统一内存,家用优势是功耗和静音。
劣势/痛点是带宽。 3090带宽翻spark2~3倍了。

不过痛点是真痛,官方自己的nemotron 120B NVFP4,用vllm也就16 t/s。
官方教程非常落后,各种阻塞,还得民间攻略。