我在两台节点(均为 NVIDIA B200 GPU)上运行 all_reduce_perf
测试时遇到错误,核心报错为 UD endpoint ... unhandled timeout error
,具体环境和错误详情如下:
环境信息:
- GPU 型号:NVIDIA B200(每节点 8 张卡,共 2 节点)
- 节点数量:2 节点
- 软件版本:
- NCCL:2.22.3(搭配 CUDA 12.8)
- OpenMPI:自定义编译(路径:/usr/local/openmpi)
- UCX:版本未知(系统默认路径:/lib/libucs.so.0 等)
- HColl:/opt/mellanox/hcoll/lib/libhcoll.so.1
- 操作系统:Ubuntu 22.04,24.04
- 网络配置:使用 InfiniBand 网卡
复现步骤:
- 配置两节点间 SSH 无密码互通,确认网络接口(eth0)和 InfiniBand 卡正常识别。
- 执行以下命令运行测试:
/usr/local/openmpi/bin/mpirun --allow-run-as-root \
--host 10.102.32.21,10.102.32.37 \
-mca plm_rsh_args "-p 22" \
-mca btl_tcp_if_include eth0 \
-mca pml ob1 \
-mca routed_radix 64 \
-mca plm_rsh_no_tree_spawn 1 \
-x NCCL_SOCKET_IFNAME=eth0 \
-x NCCL_IB_HCA=mlx5_0:1,mlx5_1:1,mlx5_2:1,mlx5_3:1,mlx5_4:1,mlx5_5:1,mlx5_6:1,mlx5_7:1 \
-x NCCL_ALGO=ring \
-x NCCL_PROTO=simple \
-x NCCL_IB_QPS_PER_CONNECTION=8 \
-x NCCL_PXN_DISABLE=1 \
-x NCCL_NET_GDR_LEVEL=4 \
-x NCCL_DEBUG=version \
-x NCCL_COLLNET_ENABLE=0 \
/opt/nccl-tests/build/all_reduce_perf -b 24G -e 24G -f 0 -i 0 -g 8
错误内容: