NVIDIA B200 2-node All-reduce test fails with "UD endpoint unhandled timeout error"

我在两台节点(均为 NVIDIA B200 GPU)上运行 all_reduce_perf 测试时遇到错误,核心报错为 UD endpoint ... unhandled timeout error,具体环境和错误详情如下:
环境信息

  • GPU 型号:NVIDIA B200(每节点 8 张卡,共 2 节点)
  • 节点数量:2 节点
  • 软件版本:
    • NCCL:2.22.3(搭配 CUDA 12.8)
    • OpenMPI:自定义编译(路径:/usr/local/openmpi)
    • UCX:版本未知(系统默认路径:/lib/libucs.so.0 等)
    • HColl:/opt/mellanox/hcoll/lib/libhcoll.so.1
  • 操作系统:Ubuntu 22.04,24.04
  • 网络配置:使用 InfiniBand 网卡
    复现步骤
  1. 配置两节点间 SSH 无密码互通,确认网络接口(eth0)和 InfiniBand 卡正常识别。
  2. 执行以下命令运行测试:
/usr/local/openmpi/bin/mpirun --allow-run-as-root \
  --host 10.102.32.21,10.102.32.37 \
  -mca plm_rsh_args "-p 22" \
  -mca btl_tcp_if_include eth0 \
  -mca pml ob1 \
  -mca routed_radix 64 \
  -mca plm_rsh_no_tree_spawn 1 \
  -x NCCL_SOCKET_IFNAME=eth0 \
  -x NCCL_IB_HCA=mlx5_0:1,mlx5_1:1,mlx5_2:1,mlx5_3:1,mlx5_4:1,mlx5_5:1,mlx5_6:1,mlx5_7:1 \
  -x NCCL_ALGO=ring \
  -x NCCL_PROTO=simple \
  -x NCCL_IB_QPS_PER_CONNECTION=8 \
  -x NCCL_PXN_DISABLE=1 \
  -x NCCL_NET_GDR_LEVEL=4 \
  -x NCCL_DEBUG=version \
  -x NCCL_COLLNET_ENABLE=0 \
  /opt/nccl-tests/build/all_reduce_perf -b 24G -e 24G -f 0 -i 0 -g 8

错误内容: