LLM 集群互联拓扑总览
调研日期:2025-04-09 调研方向:大模型训练/推理集群的互联拓扑设计——网络图结构、割集带宽、路由算法、拥塞特性、成本模型,以及各厂商的拓扑选型与实际部署方案
名词定义
| 名词 | 定义 |
|---|---|
| 拓扑(Topology) | 多个节点通过链路连接形成的网络图结构,决定数据包的可选路径集合 |
| 割集带宽(Bisection Bandwidth) | 将网络节点集合对半划分时,横跨两侧的所有链路的总带宽之和;集合通信性能的首要约束指标 |
| 直径(Diameter) | 网络中任意两节点之间最短路径长度的最大值,反映最坏情况下的通信跳数 |
| 度数(Degree) | 单个节点连接的直接邻居数量,即该节点的物理链路数 |
| 全带宽(Full Bisection Bandwidth) | 割集带宽等于 $\frac{N}{2} \cdot b$($N$ 为节点数,$b$ 为单节点上行带宽),任意半数节点间的通信不受拓扑阻塞 |
| 过订阅比(Oversubscription Ratio) | 下行(接入)端口总带宽与上行(核心)端口总带宽的比值,大于 1 意味着存在收敛比 |
| Vertex-Transitive | 拓扑图中任意节点的局部结构完全对称,保证所有节点的通信性能一致,无"热点"节点 |
| 拥塞热点(Congestion Hotspot) | 多条流量路径汇聚到同一链路,导致该链路实际可用带宽远低于其物理线速 |
| OCS(Optical Circuit Switch) | 光路交换机,通过重配光纤连接动态改变网络拓扑,无需改动硬件布线 |
背景
互联协议(NVLink、InfiniBand、RoCE)决定单条链路的带宽上限,拓扑决定这些链路如何组织成网络图。同样的物理链路,用 Fat-tree 还是用 Torus 组织,割集带宽可以相差数倍。
大模型并行策略对拓扑的需求不同:
| 并行策略 | 通信模式 | 拓扑敏感点 |
|---|---|---|
| TP(张量并行) | AllReduce,每层都触发 | 节点内拓扑——需要高割集带宽、低直径 |
| PP(流水线并行) | P2P,仅相邻阶段通信 | 路径带宽——与线性拓扑天然匹配 |
| EP(专家并行) | AllToAll,大消息非均匀 | 全局带宽——对割集带宽要求最高 |
| DP(数据并行) | AllReduce,大消息 | 全局割集带宽——带宽是瓶颈,延迟不敏感 |
MoE 模型(如 DeepSeek-V3)的 AllToAll 对拓扑的要求最为苛刻:所有 Expert 节点之间需要大规模数据交换,流量模式是 many-to-many,容易在非全带宽拓扑上形成拥塞热点(来源:Switch Transformers)。
拓扑分类总览
拓扑类别划分:
- 全互联:Full Mesh / Complete Graph、NVSwitch 全互联域
- 规则图:Ring、2D Torus、3D Torus、3D Mesh、Hypercube
- 多级交换:Fat-tree / Clos、Dragonfly / Dragonfly+、Rail-Optimized Fat-tree
- 服务器中心:BCube、DCell
- 动态拓扑:OCS 光路交换、Jellyfish 随机正则图、SlimFly 低直径图
各拓扑核心指标总览
$b$ = 单链路带宽,$N$ = 节点数,$k$ = 交换机端口数。
| 拓扑 | 度数 | 链路数 | 割集带宽 | 直径 | Vertex-Transitive | 成本级别 |
|---|---|---|---|---|---|---|
| Full Mesh | $N-1$ | $\frac{N(N-1)}{2}$ | $\left(\frac{N}{2}\right)^2 b$ | 1 | Yes | 极高 |
| Ring | 2 | $N$ | $2b$ | $\lfloor N/2 \rfloor$ | Yes | 最低 |
| 2D Torus | 4 | $2N$ | $2\sqrt{N} \cdot b$ | $\sqrt{N}$ | Yes | 低 |
| 3D Torus | 6 | $3N$ | $2N^{2/3} \cdot b$ | $\frac{3}{2}N^{1/3}$ | Yes | 中 |
| Fat-tree (Clos) | $k$ | $\frac{5}{4}N$ | $\frac{N}{2}b$ | $6$(3级固定) | No | 高 |
| Dragonfly+ | $h + a - 1$ | $\sim N$ | $\sim 0.7 \cdot \frac{N}{2}b$ | 2-3 | No | 中 |
| Hypercube | $\log_2 N$ | $\frac{N}{2}\log_2 N$ | $\frac{N}{2}b$ | $\log_2 N$ | Yes | 中-高 |
| SlimFly | $O(\sqrt{N})$ | $\frac{N}{2}O(\sqrt{N})$ | $\frac{N}{2}b$ | 2 | Yes | 中(Clos 的 1/2) |
| Jellyfish | $d$(固定) | $\frac{Nd}{2}$ | $\sim\frac{dN}{4}b$ | 随机 | No | 同 Fat-tree |
关键观察:
- 割集带宽最大值:Fat-tree、Hypercube、SlimFly 均达到理论上限 $\frac{N}{2}b$(b = 单节点上行带宽);Full Mesh 的割集带宽为 $\left(\frac{N}{2}\right)^2 b$(b = 单对直连链路带宽),随 N 二次增长但每节点线缆数同步增长,实际不可扩展
- 直径最小值:Full Mesh 为 1(但不可扩展);SlimFly 恒为 2(来源:Besta & Hoefler, SC 2014)
- 成本最低:Torus($O(N)$ 链路),但割集带宽仅为 Fat-tree 的 20-60%
割集带宽随规模的变化
| $N$ | Full Mesh / Fat-tree | 3D Torus | Torus/Fat-tree 比 | Dragonfly+ |
|---|---|---|---|---|
| 64 | $32b$ | $32b$ | 100% | ~$22b$ |
| 256 | $128b$ | $80b$ | 63% | ~$90b$ |
| 1,024 | $512b$ | $204b$ | 40% | ~$360b$ |
| 4,096 | $2048b$ | $512b$ | 25% | ~$1,440b$ |
| 8,960 | $4480b$ | $920b$ | 21% | ~$3,130b$ |
Fat-tree 始终保持全割集带宽,代价是链路数 $O(N \log N)$ vs Torus 的 $O(N)$。
评估指标体系
拓扑评估的四维框架
拓扑评估从四个维度展开:
通信效率:
- 割集带宽
- 直径 / 平均路径
- 拥塞特性
- 路由效率
成本:
- 交换机数量与单价
- 线缆数量与类型
- 功耗
可扩展性:
- 最大支持规模
- 增量扩展能力
- 故障容忍
运维复杂度:
- 布线复杂度
- 路由配置复杂度
- 故障定位难度
指标详解
割集带宽 (BB) 是第一优先级指标。AllReduce 的理论带宽下界为 $\frac{2(N-1)}{N} \cdot \frac{M}{\beta}$(来源:Thakur et al., 2005),只有当拓扑提供足够的割集带宽时才能达到。若割集带宽不足,AllReduce 带宽被截断到 $\text{BB}_{\text{actual}}$,与节点数无关。
直径 影响延迟敏感型操作(如 PP 的 P2P 通信、小消息 AllReduce)。但 LLM 训练的大消息通信(AllReduce 的消息量通常 >100 MB)受带宽限制而非延迟限制,直径的权重低于割集带宽。
拥塞特性 在 AllToAll(MoE)场景下成为关键。即使拓扑有足够的总割集带宽,如果流量集中到少数链路上,实际可用带宽远低于理论值。Torus 上 AllToAll 的拥塞比(最忙链路负载 / 平均负载)可达 $O(\sqrt{N})$(来源:维度序路由分析),Fat-tree 上可通过 ECMP 将其控制在 $O(\log N)$。
成本 是拓扑选型的最终约束。相同割集带宽下,Fat-tree 的线缆成本是 Torus 的 3-5x。实测数据:400G IB 交换机 ~$940-1,170/port,400G 以太网交换机 ~$625-860/port,400G AOC (50m) ~$300-600/port-pair(来源:行业公开报价汇总,2024)。
拓扑与并行策略的适配矩阵
| 拓扑 | TP 效率 | PP 效率 | EP (MoE) 效率 | DP 效率 | 推荐并行度 |
|---|---|---|---|---|---|
| Full Mesh (<=72) | 极高 | 中 | 中 | N/A(仅节点内) | TP 为主 |
| 3D Torus | 中-高 | 高 | 低 | 中 | PP + DP |
| Fat-tree | 高(节点内)+ 中(跨节点) | 中 | 高 | 高 | 全策略 |
| Dragonfly+ | 中 | 中 | 中 | 中-高 | DP + EP |
| Hypercube | 高 | 中 | 中-高 | 中-高 | TP + EP |
MoE 的 AllToAll 对拓扑的全局带宽和拥塞特性要求最高。Fat-tree 因全割集带宽成为 MoE 首选;Torus 的 AllToAll 拥塞问题需要通过 Expert 放置策略缓解(来源:Google TPU v4, ISCA 2023)。
文档导航
| 文档 | 内容 |
|---|---|
| 总览.md(本文) | 分类框架、评估指标体系 |
| ring.md | Ring 拓扑深度剖析 |
| fat-tree.md | Fat-tree / Clos 网络深度剖析 |
| dragonfly.md | Dragonfly / Dragonfly+ 深度剖析 |
| torus.md | 2D/3D Torus 深度剖析 |
| slimfly.md | SlimFly 低直径拓扑 |
| jellyfish.md | Jellyfish 随机正则图拓扑 |
| nvl72.md | NVL72 全连接域 |
| 厂商部署.md | 各厂商集群拓扑深度剖析 |
| 横向对比.md | 通信 pattern 适配、规模扩展、成本模型、路由策略、故障容忍 |