LLM 集群互联拓扑总览

调研日期：2025-04-09 调研方向：大模型训练/推理集群的互联拓扑设计——网络图结构、割集带宽、路由算法、拥塞特性、成本模型，以及各厂商的拓扑选型与实际部署方案

名词定义

名词	定义
拓扑（Topology）	多个节点通过链路连接形成的网络图结构，决定数据包的可选路径集合
割集带宽（Bisection Bandwidth）	将网络节点集合对半划分时，横跨两侧的所有链路的总带宽之和；集合通信性能的首要约束指标
直径（Diameter）	网络中任意两节点之间最短路径长度的最大值，反映最坏情况下的通信跳数
度数（Degree）	单个节点连接的直接邻居数量，即该节点的物理链路数
全带宽（Full Bisection Bandwidth）	割集带宽等于 $\frac{N}{2} \cdot b$（$N$ 为节点数，$b$ 为单节点上行带宽），任意半数节点间的通信不受拓扑阻塞
过订阅比（Oversubscription Ratio）	下行（接入）端口总带宽与上行（核心）端口总带宽的比值，大于 1 意味着存在收敛比
Vertex-Transitive	拓扑图中任意节点的局部结构完全对称，保证所有节点的通信性能一致，无"热点"节点
拥塞热点（Congestion Hotspot）	多条流量路径汇聚到同一链路，导致该链路实际可用带宽远低于其物理线速
OCS（Optical Circuit Switch）	光路交换机，通过重配光纤连接动态改变网络拓扑，无需改动硬件布线

背景

互联协议（NVLink、InfiniBand、RoCE）决定单条链路的带宽上限，拓扑决定这些链路如何组织成网络图。同样的物理链路，用 Fat-tree 还是用 Torus 组织，割集带宽可以相差数倍。

大模型并行策略对拓扑的需求不同：

并行策略	通信模式	拓扑敏感点
TP（张量并行）	AllReduce，每层都触发	节点内拓扑——需要高割集带宽、低直径
PP（流水线并行）	P2P，仅相邻阶段通信	路径带宽——与线性拓扑天然匹配
EP（专家并行）	AllToAll，大消息非均匀	全局带宽——对割集带宽要求最高
DP（数据并行）	AllReduce，大消息	全局割集带宽——带宽是瓶颈，延迟不敏感

MoE 模型（如 DeepSeek-V3）的 AllToAll 对拓扑的要求最为苛刻：所有 Expert 节点之间需要大规模数据交换，流量模式是 many-to-many，容易在非全带宽拓扑上形成拥塞热点（来源：Switch Transformers）。

拓扑分类总览

拓扑类别划分：

全互联：Full Mesh / Complete Graph、NVSwitch 全互联域
规则图：Ring、2D Torus、3D Torus、3D Mesh、Hypercube
多级交换：Fat-tree / Clos、Dragonfly / Dragonfly+、Rail-Optimized Fat-tree
服务器中心：BCube、DCell
动态拓扑：OCS 光路交换、Jellyfish 随机正则图、SlimFly 低直径图

各拓扑核心指标总览

$b$ = 单链路带宽，$N$ = 节点数，$k$ = 交换机端口数。

拓扑	度数	链路数	割集带宽	直径	Vertex-Transitive	成本级别
Full Mesh	$N-1$	$\frac{N(N-1)}{2}$	$\left(\frac{N}{2}\right)^2 b$	1	Yes	极高
Ring	2	$N$	$2b$	$\lfloor N/2 \rfloor$	Yes	最低
2D Torus	4	$2N$	$2\sqrt{N} \cdot b$	$\sqrt{N}$	Yes	低
3D Torus	6	$3N$	$2N^{2/3} \cdot b$	$\frac{3}{2}N^{1/3}$	Yes	中
Fat-tree (Clos)	$k$	$\frac{5}{4}N$	$\frac{N}{2}b$	$6$（3级固定）	No	高
Dragonfly+	$h + a - 1$	$\sim N$	$\sim 0.7 \cdot \frac{N}{2}b$	2-3	No	中
Hypercube	$\log_2 N$	$\frac{N}{2}\log_2 N$	$\frac{N}{2}b$	$\log_2 N$	Yes	中-高
SlimFly	$O(\sqrt{N})$	$\frac{N}{2}O(\sqrt{N})$	$\frac{N}{2}b$	2	Yes	中（Clos 的 1/2）
Jellyfish	$d$（固定）	$\frac{Nd}{2}$	$\sim\frac{dN}{4}b$	随机	No	同 Fat-tree

关键观察：

割集带宽最大值：Fat-tree、Hypercube、SlimFly 均达到理论上限 $\frac{N}{2}b$（b = 单节点上行带宽）；Full Mesh 的割集带宽为 $\left(\frac{N}{2}\right)^2 b$（b = 单对直连链路带宽），随 N 二次增长但每节点线缆数同步增长，实际不可扩展
直径最小值：Full Mesh 为 1（但不可扩展）；SlimFly 恒为 2（来源：Besta & Hoefler, SC 2014）
成本最低：Torus（$O(N)$ 链路），但割集带宽仅为 Fat-tree 的 20-60%

割集带宽随规模的变化

$N$	Full Mesh / Fat-tree	3D Torus	Torus/Fat-tree 比	Dragonfly+
64	$32b$	$32b$	100%	~$22b$
256	$128b$	$80b$	63%	~$90b$
1,024	$512b$	$204b$	40%	~$360b$
4,096	$2048b$	$512b$	25%	~$1,440b$
8,960	$4480b$	$920b$	21%	~$3,130b$

Fat-tree 始终保持全割集带宽，代价是链路数 $O(N \log N)$ vs Torus 的 $O(N)$。

评估指标体系

拓扑评估的四维框架

拓扑评估从四个维度展开：

通信效率：

割集带宽
直径 / 平均路径
拥塞特性
路由效率

成本：

交换机数量与单价
线缆数量与类型
功耗

可扩展性：

最大支持规模
增量扩展能力
故障容忍

运维复杂度：

布线复杂度
路由配置复杂度
故障定位难度

指标详解

割集带宽 (BB) 是第一优先级指标。AllReduce 的理论带宽下界为 $\frac{2(N-1)}{N} \cdot \frac{M}{\beta}$（来源：Thakur et al., 2005），只有当拓扑提供足够的割集带宽时才能达到。若割集带宽不足，AllReduce 带宽被截断到 $\text{BB}_{\text{actual}}$，与节点数无关。

直径影响延迟敏感型操作（如 PP 的 P2P 通信、小消息 AllReduce）。但 LLM 训练的大消息通信（AllReduce 的消息量通常 >100 MB）受带宽限制而非延迟限制，直径的权重低于割集带宽。

拥塞特性 在 AllToAll（MoE）场景下成为关键。即使拓扑有足够的总割集带宽，如果流量集中到少数链路上，实际可用带宽远低于理论值。Torus 上 AllToAll 的拥塞比（最忙链路负载 / 平均负载）可达 $O(\sqrt{N})$（来源：维度序路由分析），Fat-tree 上可通过 ECMP 将其控制在 $O(\log N)$。

成本是拓扑选型的最终约束。相同割集带宽下，Fat-tree 的线缆成本是 Torus 的 3-5x。实测数据：400G IB 交换机 ~$940-1,170/port，400G 以太网交换机 ~$625-860/port，400G AOC (50m) ~$300-600/port-pair（来源：行业公开报价汇总，2024）。

拓扑与并行策略的适配矩阵

拓扑	TP 效率	PP 效率	EP (MoE) 效率	DP 效率	推荐并行度
Full Mesh (<=72)	极高	中	中	N/A（仅节点内）	TP 为主
3D Torus	中-高	高	低	中	PP + DP
Fat-tree	高（节点内）+ 中（跨节点）	中	高	高	全策略
Dragonfly+	中	中	中	中-高	DP + EP
Hypercube	高	中	中-高	中-高	TP + EP

MoE 的 AllToAll 对拓扑的全局带宽和拥塞特性要求最高。Fat-tree 因全割集带宽成为 MoE 首选；Torus 的 AllToAll 拥塞问题需要通过 Expert 放置策略缓解（来源：Google TPU v4, ISCA 2023）。

文档导航

文档	内容
总览.md（本文）	分类框架、评估指标体系
ring.md	Ring 拓扑深度剖析
fat-tree.md	Fat-tree / Clos 网络深度剖析
dragonfly.md	Dragonfly / Dragonfly+ 深度剖析
torus.md	2D/3D Torus 深度剖析
slimfly.md	SlimFly 低直径拓扑
jellyfish.md	Jellyfish 随机正则图拓扑
nvl72.md	NVL72 全连接域
厂商部署.md	各厂商集群拓扑深度剖析
横向对比.md	通信 pattern 适配、规模扩展、成本模型、路由策略、故障容忍

名词定义​

背景​

拓扑分类总览​

各拓扑核心指标总览​

割集带宽随规模的变化​

评估指标体系​

拓扑评估的四维框架​

指标详解​

拓扑与并行策略的适配矩阵​

文档导航​