我们本地服务器包含8台3090,每2台3090通过NVLink连接,每4台3090连接到一台PCIe交换机。下面是我们本地GPU的拓扑:
GPU0 GPU1 GPU2 GPU3 GPU4 GPU5 GPU6 GPU7 CPU Affinity NUMA Affinity GPU NUMA ID
GPU0 X NV4 PIX PIX SYS SYS SYS SYS 0-15,32-47 0 N/A
GPU1 NV4 X PIX PIX SYS SYS SYS SYS 0-15,32-47 0 N/A
GPU2 PIX PIX X NV4 SYS SYS SYS SYS 0-15,32-47 0 N/A
GPU3 PIX PIX NV4 X SYS SYS SYS SYS 0-15,32-47 0 N/A
GPU4 SYS SYS SYS SYS X NV4 PIX PIX 16-31,48-63 1 N/A
GPU5 SYS SYS SYS SYS NV4 X PIX PIX 16-31,48-63 1 N/A
GPU6 SYS SYS SYS SYS PIX PIX X NV4 16-31,48-63 1 N/A
GPU7 SYS SYS SYS SYS PIX PIX NV4 X 16-31,48-63 1 N/A
GPU 0-3 和 GPU 4-7 各连接到一个PCIe交换机。
但是我们尝试输出“nvidia-smi topo -p2p w”,得到的结果显示GPU 0-3以及GPU 4-7之间是“chipset not supported”:
GPU0 GPU1 GPU2 GPU3 GPU4 GPU5 GPU6 GPU7
GPU0 X OK CNS CNS CNS CNS CNS CNS
GPU1 OK X CNS CNS CNS CNS CNS CNS
GPU2 CNS CNS X OK CNS CNS CNS CNS
GPU3 CNS CNS OK X CNS CNS CNS CNS
GPU4 CNS CNS CNS CNS X OK CNS CNS
GPU5 CNS CNS CNS CNS OK X CNS CNS
GPU6 CNS CNS CNS CNS CNS CNS X OK
GPU7 CNS CNS CNS CNS CNS CNS OK X
我们也尝试修改交换机的相关控制位,但是并没有效果。我们怀疑是RTX3090本身的问题,所以RTX3090支持通过PCIe交换机的p2p访问吗,有大佬懂这方面吗?