NVIDIA B200 2-node All-reduce test fails with "UD endpoint unhandled timeout error"

wyl5588 · 2025 年7 月 10 日 01:17

我在两台节点（均为 NVIDIA B200 GPU）上运行 all_reduce_perf 测试时遇到错误，核心报错为 UD endpoint ... unhandled timeout error，具体环境和错误详情如下：
环境信息：

GPU 型号：NVIDIA B200（每节点 8 张卡，共 2 节点）
节点数量：2 节点
软件版本：
- NCCL：2.22.3（搭配 CUDA 12.8）
- OpenMPI：自定义编译（路径：/usr/local/openmpi）
- UCX：版本未知（系统默认路径：/lib/libucs.so.0 等）
- HColl：/opt/mellanox/hcoll/lib/libhcoll.so.1
操作系统：Ubuntu 22.04,24.04
网络配置：使用 InfiniBand 网卡
复现步骤：

配置两节点间 SSH 无密码互通，确认网络接口（eth0）和 InfiniBand 卡正常识别。
执行以下命令运行测试：

/usr/local/openmpi/bin/mpirun --allow-run-as-root \
  --host 10.102.32.21,10.102.32.37 \
  -mca plm_rsh_args "-p 22" \
  -mca btl_tcp_if_include eth0 \
  -mca pml ob1 \
  -mca routed_radix 64 \
  -mca plm_rsh_no_tree_spawn 1 \
  -x NCCL_SOCKET_IFNAME=eth0 \
  -x NCCL_IB_HCA=mlx5_0:1,mlx5_1:1,mlx5_2:1,mlx5_3:1,mlx5_4:1,mlx5_5:1,mlx5_6:1,mlx5_7:1 \
  -x NCCL_ALGO=ring \
  -x NCCL_PROTO=simple \
  -x NCCL_IB_QPS_PER_CONNECTION=8 \
  -x NCCL_PXN_DISABLE=1 \
  -x NCCL_NET_GDR_LEVEL=4 \
  -x NCCL_DEBUG=version \
  -x NCCL_COLLNET_ENABLE=0 \
  /opt/nccl-tests/build/all_reduce_perf -b 24G -e 24G -f 0 -i 0 -g 8

错误内容：