在 DGX 上安装 PyTorch 且与 vLLM 兼容

我在 NVIDIA DGX 主机(ARM64/aarch64 架构,Grace CPU + Hopper GPU,Ubuntu 22.04)上部署 Qwen3-32B-NVFP4 模型,需要安装 PyTorch GPU 版和 vLLM。当前驱动版本 580.82.09(支持 CUDA 13.0),但实际需安装 CUDA 12.x 运行时。由于国内网络限制,无法稳定连接 Docker Hub 和 PyTorch 官方源,已尝试以下方法均失败:

  • 使用清华 PyTorch 镜像安装(无 aarch64 CUDA 包)。
  • 使用阿里云 PyPI 镜像安装 vLLM(部分依赖缺失)。
  • 使用 Docker 拉取镜像(连接超时/重置)。
  • 使用 conda 安装 PyTorch 但得到的是 CPU 版本(torch.cuda.is_available() 为 False,torch.version.cuda 为 None)。
  • 直接下载 wheel 文件(官方源 403 禁止)。
    请问有没有稳定可靠的安装方案?最好能提供具体的镜像源地址、conda 频道配置,或者离线安装包的获取方式(如从国内镜像站下载 aarch64 CUDA 版本的 PyTorch wheels)。请确保最终安装的 PyTorch 支持 CUDA,且与 vLLM 兼容

建议使用模型权重+vLLM推理引擎容器镜像+启动脚本的方式,免去大量安装环境依赖的问题。

  1. 模型权重,请下载到本地目录,比如models/目录下。
  2. vLLM推理引擎容器镜像,建议直接从NVIDIA NGC下载已经在DGX Spark上测试过的vLLM镜像,nvcr.io/nvidia/vllm:25.12.post1-py3。
  3. 启动脚本,供参考
    start_vllm.sh (1.5 KB)
1 个赞

谢谢指导~ 我最后尝试购买阿里云ECS(按流量计费)作为中转站进行拉取相关镜像,速度和稳定性都没问题了,只是所拉取到的几次都在最后适配性上有问题。。。 最后的最后在凌晨4点的时候直接拉取ollama官网在安装包(速度突然就飞快了)完成了安装并能初步使用模型,但还是没能很好地匹配上发回GPU芯片算力,还需后续再调整。

1 个赞