在 DGX 上安装 PyTorch 且与 vLLM 兼容

ay9966 · 2026 年3 月 9 日 02:25

我在 NVIDIA DGX 主机（ARM64/aarch64 架构，Grace CPU + Hopper GPU，Ubuntu 22.04）上部署 Qwen3-32B-NVFP4 模型，需要安装 PyTorch GPU 版和 vLLM。当前驱动版本 580.82.09（支持 CUDA 13.0），但实际需安装 CUDA 12.x 运行时。由于国内网络限制，无法稳定连接 Docker Hub 和 PyTorch 官方源，已尝试以下方法均失败：

使用清华 PyTorch 镜像安装（无 aarch64 CUDA 包）。
使用阿里云 PyPI 镜像安装 vLLM（部分依赖缺失）。
使用 Docker 拉取镜像（连接超时/重置）。
使用 conda 安装 PyTorch 但得到的是 CPU 版本（torch.cuda.is_available() 为 False，torch.version.cuda 为 None）。
直接下载 wheel 文件（官方源 403 禁止）。
请问有没有稳定可靠的安装方案？最好能提供具体的镜像源地址、conda 频道配置，或者离线安装包的获取方式（如从国内镜像站下载 aarch64 CUDA 版本的 PyTorch wheels）。请确保最终安装的 PyTorch 支持 CUDA，且与 vLLM 兼容

Leon14542 · 2026 年3 月 9 日 09:27

建议使用模型权重+vLLM推理引擎容器镜像+启动脚本的方式，免去大量安装环境依赖的问题。

模型权重，请下载到本地目录，比如models/目录下。
vLLM推理引擎容器镜像，建议直接从NVIDIA NGC下载已经在DGX Spark上测试过的vLLM镜像，nvcr.io/nvidia/vllm:25.12.post1-py3。
启动脚本，供参考
start_vllm.sh (1.5 KB)

ay9966 · 2026 年3 月 10 日 08:25

谢谢指导~ 我最后尝试购买阿里云ECS（按流量计费）作为中转站进行拉取相关镜像，速度和稳定性都没问题了，只是所拉取到的几次都在最后适配性上有问题。。。最后的最后在凌晨4点的时候直接拉取ollama官网在安装包（速度突然就飞快了）完成了安装并能初步使用模型，但还是没能很好地匹配上发回GPU芯片算力，还需后续再调整。

seamanxie · 2026 年3 月 18 日 23:28

下面是我的一点经验：

ThinkStation PGX (GB10) 环境决策实录

现状矛盾 (The Conflict)

硬件端：NVIDIA GB10 (Blackwell) 算力 sm_121，属于目前最尖端硬件。

软件端：常规 PyTorch 和 vLLM 稳定版主要支持到 sm_90 (Hopper)，导致宿主机虚拟环境 (mineru_env) 出现严重的 nvrtc 编译错误和依赖链死锁（vLLM 与新版 Torch 版本互斥）。

系统端：宿主机驱动已升至 580.126 / CUDA 13.0，具备了支持新卡的物理基础。

决策过程 (Decision Logic)

针对“如何让 MinerU 在 GB10 上跑起来”，我们进行了两轮推演：

方案 A（宿主机硬刚）：不断尝试在 Conda 环境中通过 Nightly 版 Torch 强行适配。

结论：弃用。原因：导致 vLLM 等重型推理引擎依赖崩溃，且手动解决 sm_121 算子编译问题效率极低，容易污染宿主机系统环境。

方案 B（NGC 容器化）：利用 NVIDIA 官方针对 Blackwell 架构预优化的 nvcr.io/nvidia/vllm:26.02-py3 镜像。

结论：采用。原因：容器内部已将 CUDA 13.1、PyTorch 2.11 (NVIDIA 版) 和 vLLM 预先对齐。它是专为 Blackwell 开发的“无尘实验室”，性能释放最完整。

最终方案：双向挂载隔离部署 (Final Architecture)

为了确保 “数据不动，环境随变”，采取以下部署策略：

数据层 (Host)：4TB 硬盘中的模型 (/ai_aide/models) 和工作脚本留在宿主机，确保物理安全。

计算层 (Container)：通过 docker run 的 -v 参数将上述路径映射进容器。

算力层 (GPU)：通过 --gpus all 和 --ipc=host 确保容器能全量调用 GB10 的 128GB 显存。

关键执行路径 (Action Plan)

拉取镜像：docker pull nvcr.io/nvidia/vllm:26.02-py3 (窗口 A 执行)。

合闸启动：使用特定的 docker run 指令进行双目录映射 (窗口 B 执行)。

容器推理：进入容器后，微调脚本路径，利用容器内“满血版”环境执行 MinerU 解析。

核心教训 (Key Lesson)

顶级显卡必须配顶级容器：对于 Blackwell 这种处于“软件适配期”的顶级硬件，不要试图在宿主机手动拼凑环境，NVIDIA 官方的 NGC 容器镜像才是版本兼容性的唯一“标准答案”。