在 DGX 上安装 PyTorch 且与 vLLM 兼容

我在 NVIDIA DGX 主机(ARM64/aarch64 架构,Grace CPU + Hopper GPU,Ubuntu 22.04)上部署 Qwen3-32B-NVFP4 模型,需要安装 PyTorch GPU 版和 vLLM。当前驱动版本 580.82.09(支持 CUDA 13.0),但实际需安装 CUDA 12.x 运行时。由于国内网络限制,无法稳定连接 Docker Hub 和 PyTorch 官方源,已尝试以下方法均失败:

  • 使用清华 PyTorch 镜像安装(无 aarch64 CUDA 包)。
  • 使用阿里云 PyPI 镜像安装 vLLM(部分依赖缺失)。
  • 使用 Docker 拉取镜像(连接超时/重置)。
  • 使用 conda 安装 PyTorch 但得到的是 CPU 版本(torch.cuda.is_available() 为 False,torch.version.cuda 为 None)。
  • 直接下载 wheel 文件(官方源 403 禁止)。
    请问有没有稳定可靠的安装方案?最好能提供具体的镜像源地址、conda 频道配置,或者离线安装包的获取方式(如从国内镜像站下载 aarch64 CUDA 版本的 PyTorch wheels)。请确保最终安装的 PyTorch 支持 CUDA,且与 vLLM 兼容

建议使用模型权重+vLLM推理引擎容器镜像+启动脚本的方式,免去大量安装环境依赖的问题。

  1. 模型权重,请下载到本地目录,比如models/目录下。
  2. vLLM推理引擎容器镜像,建议直接从NVIDIA NGC下载已经在DGX Spark上测试过的vLLM镜像,nvcr.io/nvidia/vllm:25.12.post1-py3。
  3. 启动脚本,供参考
    start_vllm.sh (1.5 KB)
1 个赞

谢谢指导~ 我最后尝试购买阿里云ECS(按流量计费)作为中转站进行拉取相关镜像,速度和稳定性都没问题了,只是所拉取到的几次都在最后适配性上有问题。。。 最后的最后在凌晨4点的时候直接拉取ollama官网在安装包(速度突然就飞快了)完成了安装并能初步使用模型,但还是没能很好地匹配上发回GPU芯片算力,还需后续再调整。

1 个赞

下面是我的一点经验:

ThinkStation PGX (GB10) 环境决策实录

  1. 现状矛盾 (The Conflict)

硬件端:NVIDIA GB10 (Blackwell) 算力 sm_121,属于目前最尖端硬件。

软件端:常规 PyTorch 和 vLLM 稳定版主要支持到 sm_90 (Hopper),导致宿主机虚拟环境 (mineru_env) 出现严重的 nvrtc 编译错误和依赖链死锁(vLLM 与新版 Torch 版本互斥)。

系统端:宿主机驱动已升至 580.126 / CUDA 13.0,具备了支持新卡的物理基础。

  1. 决策过程 (Decision Logic)

针对“如何让 MinerU 在 GB10 上跑起来”,我们进行了两轮推演:

方案 A(宿主机硬刚):不断尝试在 Conda 环境中通过 Nightly 版 Torch 强行适配。

结论:弃用。原因:导致 vLLM 等重型推理引擎依赖崩溃,且手动解决 sm_121 算子编译问题效率极低,容易污染宿主机系统环境。

方案 B(NGC 容器化):利用 NVIDIA 官方针对 Blackwell 架构预优化的 nvcr.io/nvidia/vllm:26.02-py3 镜像。

结论:采用。原因:容器内部已将 CUDA 13.1、PyTorch 2.11 (NVIDIA 版) 和 vLLM 预先对齐。它是专为 Blackwell 开发的“无尘实验室”,性能释放最完整。

  1. 最终方案:双向挂载隔离部署 (Final Architecture)

为了确保 “数据不动,环境随变”,采取以下部署策略:

数据层 (Host):4TB 硬盘中的模型 (/ai_aide/models) 和工作脚本 留在宿主机,确保物理安全。

计算层 (Container):通过 docker run 的 -v 参数将上述路径映射进容器。

算力层 (GPU):通过 --gpus all 和 --ipc=host 确保容器能全量调用 GB10 的 128GB 显存。

  1. 关键执行路径 (Action Plan)

拉取镜像:docker pull nvcr.io/nvidia/vllm:26.02-py3 (窗口 A 执行)。

合闸启动:使用特定的 docker run 指令进行双目录映射 (窗口 B 执行)。

容器推理:进入容器后,微调脚本路径,利用容器内“满血版”环境执行 MinerU 解析。

  1. 核心教训 (Key Lesson)

顶级显卡必须配顶级容器:对于 Blackwell 这种处于“软件适配期”的顶级硬件,不要试图在宿主机手动拼凑环境,NVIDIA 官方的 NGC 容器镜像才是版本兼容性的唯一“标准答案”。

1 个赞