跳到主要内容

LLM 集群互联拓扑总览

调研日期:2025-04-09 调研方向:大模型训练/推理集群的互联拓扑设计——网络图结构、割集带宽、路由算法、拥塞特性、成本模型,以及各厂商的拓扑选型与实际部署方案


名词定义

名词定义
拓扑(Topology)多个节点通过链路连接形成的网络图结构,决定数据包的可选路径集合
割集带宽(Bisection Bandwidth)将网络节点集合对半划分时,横跨两侧的所有链路的总带宽之和;集合通信性能的首要约束指标
直径(Diameter)网络中任意两节点之间最短路径长度的最大值,反映最坏情况下的通信跳数
度数(Degree)单个节点连接的直接邻居数量,即该节点的物理链路数
全带宽(Full Bisection Bandwidth)割集带宽等于 $\frac{N}{2} \cdot b$$N$ 为节点数,$b$ 为单节点上行带宽),任意半数节点间的通信不受拓扑阻塞
过订阅比(Oversubscription Ratio)下行(接入)端口总带宽与上行(核心)端口总带宽的比值,大于 1 意味着存在收敛比
Vertex-Transitive拓扑图中任意节点的局部结构完全对称,保证所有节点的通信性能一致,无"热点"节点
拥塞热点(Congestion Hotspot)多条流量路径汇聚到同一链路,导致该链路实际可用带宽远低于其物理线速
OCS(Optical Circuit Switch)光路交换机,通过重配光纤连接动态改变网络拓扑,无需改动硬件布线

背景

互联协议(NVLink、InfiniBand、RoCE)决定单条链路的带宽上限,拓扑决定这些链路如何组织成网络图。同样的物理链路,用 Fat-tree 还是用 Torus 组织,割集带宽可以相差数倍。

大模型并行策略对拓扑的需求不同:

并行策略通信模式拓扑敏感点
TP(张量并行)AllReduce,每层都触发节点内拓扑——需要高割集带宽、低直径
PP(流水线并行)P2P,仅相邻阶段通信路径带宽——与线性拓扑天然匹配
EP(专家并行)AllToAll,大消息非均匀全局带宽——对割集带宽要求最高
DP(数据并行)AllReduce,大消息全局割集带宽——带宽是瓶颈,延迟不敏感

MoE 模型(如 DeepSeek-V3)的 AllToAll 对拓扑的要求最为苛刻:所有 Expert 节点之间需要大规模数据交换,流量模式是 many-to-many,容易在非全带宽拓扑上形成拥塞热点(来源:Switch Transformers)。


拓扑分类总览

拓扑类别划分:

  • 全互联:Full Mesh / Complete Graph、NVSwitch 全互联域
  • 规则图:Ring、2D Torus、3D Torus、3D Mesh、Hypercube
  • 多级交换:Fat-tree / Clos、Dragonfly / Dragonfly+、Rail-Optimized Fat-tree
  • 服务器中心:BCube、DCell
  • 动态拓扑:OCS 光路交换、Jellyfish 随机正则图、SlimFly 低直径图

各拓扑核心指标总览

$b$ = 单链路带宽,$N$ = 节点数,$k$ = 交换机端口数。

拓扑度数链路数割集带宽直径Vertex-Transitive成本级别
Full Mesh$N-1$$\frac{N(N-1)}{2}$$\left(\frac{N}{2}\right)^2 b$1Yes极高
Ring2$N$$2b$$\lfloor N/2 \rfloor$Yes最低
2D Torus4$2N$$2\sqrt{N} \cdot b$$\sqrt{N}$Yes
3D Torus6$3N$$2N^{2/3} \cdot b$$\frac{3}{2}N^{1/3}$Yes
Fat-tree (Clos)$k$$\frac{5}{4}N$$\frac{N}{2}b$$6$(3级固定)No
Dragonfly+$h + a - 1$$\sim N$$\sim 0.7 \cdot \frac{N}{2}b$2-3No
Hypercube$\log_2 N$$\frac{N}{2}\log_2 N$$\frac{N}{2}b$$\log_2 N$Yes中-高
SlimFly$O(\sqrt{N})$$\frac{N}{2}O(\sqrt{N})$$\frac{N}{2}b$2Yes中(Clos 的 1/2)
Jellyfish$d$(固定)$\frac{Nd}{2}$$\sim\frac{dN}{4}b$随机No同 Fat-tree

关键观察:

  • 割集带宽最大值:Fat-tree、Hypercube、SlimFly 均达到理论上限 $\frac{N}{2}b$(b = 单节点上行带宽);Full Mesh 的割集带宽为 $\left(\frac{N}{2}\right)^2 b$(b = 单对直连链路带宽),随 N 二次增长但每节点线缆数同步增长,实际不可扩展
  • 直径最小值:Full Mesh 为 1(但不可扩展);SlimFly 恒为 2(来源:Besta & Hoefler, SC 2014
  • 成本最低:Torus($O(N)$ 链路),但割集带宽仅为 Fat-tree 的 20-60%

割集带宽随规模的变化

$N$Full Mesh / Fat-tree3D TorusTorus/Fat-tree 比Dragonfly+
64$32b$$32b$100%~$22b$
256$128b$$80b$63%~$90b$
1,024$512b$$204b$40%~$360b$
4,096$2048b$$512b$25%~$1,440b$
8,960$4480b$$920b$21%~$3,130b$

Fat-tree 始终保持全割集带宽,代价是链路数 $O(N \log N)$ vs Torus 的 $O(N)$


评估指标体系

拓扑评估的四维框架

拓扑评估从四个维度展开:

通信效率

  • 割集带宽
  • 直径 / 平均路径
  • 拥塞特性
  • 路由效率

成本

  • 交换机数量与单价
  • 线缆数量与类型
  • 功耗

可扩展性

  • 最大支持规模
  • 增量扩展能力
  • 故障容忍

运维复杂度

  • 布线复杂度
  • 路由配置复杂度
  • 故障定位难度

指标详解

割集带宽 (BB) 是第一优先级指标。AllReduce 的理论带宽下界为 $\frac{2(N-1)}{N} \cdot \frac{M}{\beta}$(来源:Thakur et al., 2005),只有当拓扑提供足够的割集带宽时才能达到。若割集带宽不足,AllReduce 带宽被截断到 $\text{BB}_{\text{actual}}$,与节点数无关。

直径 影响延迟敏感型操作(如 PP 的 P2P 通信、小消息 AllReduce)。但 LLM 训练的大消息通信(AllReduce 的消息量通常 >100 MB)受带宽限制而非延迟限制,直径的权重低于割集带宽。

拥塞特性 在 AllToAll(MoE)场景下成为关键。即使拓扑有足够的总割集带宽,如果流量集中到少数链路上,实际可用带宽远低于理论值。Torus 上 AllToAll 的拥塞比(最忙链路负载 / 平均负载)可达 $O(\sqrt{N})$(来源:维度序路由分析),Fat-tree 上可通过 ECMP 将其控制在 $O(\log N)$

成本 是拓扑选型的最终约束。相同割集带宽下,Fat-tree 的线缆成本是 Torus 的 3-5x。实测数据:400G IB 交换机 ~$940-1,170/port,400G 以太网交换机 ~$625-860/port,400G AOC (50m) ~$300-600/port-pair(来源:行业公开报价汇总,2024)。

拓扑与并行策略的适配矩阵

拓扑TP 效率PP 效率EP (MoE) 效率DP 效率推荐并行度
Full Mesh (<=72)极高N/A(仅节点内)TP 为主
3D Torus中-高PP + DP
Fat-tree高(节点内)+ 中(跨节点)全策略
Dragonfly+中-高DP + EP
Hypercube中-高中-高TP + EP

MoE 的 AllToAll 对拓扑的全局带宽和拥塞特性要求最高。Fat-tree 因全割集带宽成为 MoE 首选;Torus 的 AllToAll 拥塞问题需要通过 Expert 放置策略缓解(来源:Google TPU v4, ISCA 2023)。


文档导航

文档内容
总览.md(本文)分类框架、评估指标体系
ring.mdRing 拓扑深度剖析
fat-tree.mdFat-tree / Clos 网络深度剖析
dragonfly.mdDragonfly / Dragonfly+ 深度剖析
torus.md2D/3D Torus 深度剖析
slimfly.mdSlimFly 低直径拓扑
jellyfish.mdJellyfish 随机正则图拓扑
nvl72.mdNVL72 全连接域
厂商部署.md各厂商集群拓扑深度剖析
横向对比.md通信 pattern 适配、规模扩展、成本模型、路由策略、故障容忍