跳到主要内容

大模型多芯片网络拓扑设计调研

目录

  1. 背景与需求
  2. 主流拓扑类型调研
  3. 拓扑对比分析
  4. Tier6+ 平台设计建议
  5. 参考资料

背景与需求

LLM 推理对网络的核心诉求

大模型推理部署中,张量并行(TP)、流水线并行(PP)、专家并行(EP)等策略使得多芯片间通信成为性能瓶颈之一。网络拓扑直接决定了以下关键指标:

  • AllReduce 延迟:TP 组内每层 Attention/FFN 计算结束后需要执行 AllReduce,其延迟直接叠加在每个 token 的解码时间(TPOT)上。
  • AllToAll 吞吐:MoE 模型的专家路由依赖 AllToAll,带宽决定了 token dispatch 的吞吐上限。
  • P2P 延迟:PP 流水线的 stage 间激活传输对点对点延迟敏感,影响流水线气泡率。
  • 扩展性:支持从 8 芯到 64 芯甚至更大规模,不同规模下拓扑效率差异显著。

典型部署规模

规模典型场景主要通信类型
8 芯单服务器 TP=8AllReduce, intra-board
16 芯双服务器 TP=8 + PP=2AllReduce + P2P
32 芯4 服务器,TP×EP 混合AllToAll, AllReduce
64 芯8 服务器,跨机架,DP/EP 大规模AllReduce, AllToAll

当前平台的局限

Tier6+ 当前采用 4 级层次路由(c2c / b2b / r2r / p2p),每级用固定带宽和延迟参数描述,没有真正的拓扑图结构和交换机建模。这导致:

  • 无法表达同一层级内不同路径的带宽差异(如 fat-tree 多路径)
  • 无法建模交换机端口竞争与拥塞
  • AllReduce/AllToAll 的流量模型过于简化,无法反映真实集群行为

主流拓扑类型调研

Ring 拓扑

原理

每个节点(芯片/GPU)连接到左右两个邻居,构成一个首尾相接的环形。通信沿环传播,典型实现为 NVLink Ring(NVIDIA DGX 系列)。

AllReduce 在 Ring 拓扑上执行 Ring-AllReduce 算法:分为 Reduce-Scatter 和 AllGather 两阶段,每阶段各 N-1 步,总带宽利用率为 2(N-1)/N,趋近于 100%。

优点

  • 带宽最优:Ring-AllReduce 的带宽利用率接近 100%,是 AllReduce 的理论最优实现之一。
  • 成本低:每节点仅需 2 条链路,线缆和交换机成本极低。
  • 实现简单:物理布线规整,管理简单;NVLink 板内 ring 是业界最成熟方案。

缺点

  • 延迟随规模线性增长:AllReduce 步数为 O(N),64 节点时延迟是 8 节点的 8 倍,对小 message 的 latency-bound 场景尤为不利。
  • 容错性差:单链路故障即导致环断裂,路由无法绕行。
  • 跨机架难以维持 ring 连续性:物理布线受限,跨机架 ring 通常需要额外交换机辅助。

适用场景

  • 单服务器内 8 芯 TP 组(NVLink ring)
  • message size 较大(> 1 MB)的 AllReduce
  • 成本敏感、节点数 <= 16 的小规模部署

Fat-Tree 拓扑

原理

Fat-Tree(又称 Clos 网络)是数据中心最主流的网络拓扑。标准 k-ary fat-tree 由三层交换机构成(Edge / Aggregation / Core),共 k³/4 个节点和 5k²/4 台交换机。

关键特性:

  • 全等分带宽(Full Bisection Bandwidth):任意两节点间可用带宽与直接相连相同,无带宽瓶颈。
  • 多路径(ECMP):同一源-目的对之间存在多条等价路径,可负载均衡。
  • 任意全局通信:AllReduce、AllToAll 均可高效执行,无需绕行。

Fat-Tree 与 LLM AllReduce 的关系

在 Fat-Tree 拓扑上,AllReduce 通常使用 Recursive Halving-Doubling 或 Ring-AllReduce 变体。由于存在多路径,流量可并行走不同路径,理论上 N 个节点的 AllReduce 带宽利用率不因节点数增加而下降(假设流量调度理想)。

对 MoE 模型的 AllToAll,Fat-Tree 的全等分带宽使得 N×N 的全对全通信可在同一轮内完成,不存在 Ring 拓扑的序列化瓶颈。

优点

  • 扩展性极强:k=32 可支持 8192 节点,LLM 集群标准拓扑之一。
  • 全等分带宽:AllReduce、AllToAll 效率高,不因规模增大而退化。
  • 容错性好:多路径使得单链路/交换机故障影响局限。

缺点

  • 成本高:交换机数量为 O(N),光模块、交换芯片成本显著。
  • 跳数多:两个节点间最多经过 4-6 跳,对 latency-bound 小 message 不友好。
  • 拥塞敏感:AllToAll 等全局通信在非理想流量分布下仍会产生 incast 拥塞。

适用场景

  • 32 芯以上的大规模 LLM 训练/推理集群
  • 需要支持 DP/EP 大规模扩展的场景
  • InfiniBand HDR/NDR 集群(NVIDIA DGX SuperPOD 的机架间部分)

Dragonfly 拓扑

原理

Dragonfly 由多个 group 组成,每个 group 内部为全互联(all-to-all),group 之间通过全局链路(global links)连接。典型参数:每个 group 有 a 个路由器,每个路由器有 p 个终端端口,group 间链路数为 h。

NVIDIA SuperPOD 风格的网络在机架间采用类 Dragonfly 结构:每个 pod 内部 fat-tree,pod 之间 all-to-all 全局链路,实现"两跳"达到任意节点。

优点

  • 极低直径:group 内 1 跳,跨 group 最多 3 跳(src_router -> global_link -> dst_router -> dst_node),延迟远低于 fat-tree。
  • 全局链路高效:适合 DP 等跨 pod 通信,带宽利用率高。
  • 成本介于 Ring 和 Fat-Tree 之间:减少了交换机层级,总成本低于全 fat-tree。

缺点

  • 自适应路由复杂:需要拥塞感知路由(如 UGAL),否则易产生 global link 拥塞。
  • AllToAll 不对称:同 group 内通信与跨 group 通信带宽差异大,MoE AllToAll 效率依赖专家分布。
  • 扩展单位粗粒度:扩展必须以 group 为单位,灵活性不如 fat-tree。

适用场景

  • 超大规模(1000+ 节点)LLM 训练集群
  • 跨机架 DP 通信为主的场景
  • 需要控制成本同时维持低延迟的高端集群

Rail-Optimized 拓扑

原理

Rail-Optimized(也称 Rail 拓扑)专为 GPU 服务器设计,其核心思想是:将同一服务器内相同"轨道编号"的 GPU(如所有服务器的 GPU 0、所有服务器的 GPU 1...)分别连接到同一台顶层交换机(ToR 或 Spine),形成 "rail"。

具体而言,N 个服务器、每服务器 k 个 GPU,则有 k 台交换机(每台交换机负责 1 条 rail),每台交换机连接所有服务器的同号 GPU。

为何适合 TP 并行

TP 组通常要求组内所有 GPU 做 AllReduce。如果 TP=8 且恰好对应 8 条 rail,则每次 AllReduce 只走一台交换机,不产生跨 rail 流量,带宽利用率最大化。这种布局被称为 "TP-aligned rail",是 NVIDIA Quantum-2 InfiniBand 集群的推荐配置。

优点

  • TP AllReduce 最优:TP 组内通信不经过 spine,延迟最低、带宽最高。
  • 可预测性强:流量模式固定,无拥塞热点。
  • 成本可控:交换机数量等于每服务器 GPU 数,通常为 8 或 16 台。

缺点

  • DP/EP 跨 rail 通信退化:跨 rail 的 AllToAll 需要 rail 间路由,引入额外跳数和带宽竞争。
  • 灵活性受限:TP 组大小必须与 rail 数对齐,否则失去优势。
  • 不支持任意 AllToAll:MoE 大规模 EP 场景下 rail 拓扑的优势消失。

适用场景

  • TP=8 或 TP=16 的稠密模型推理(Llama、Qwen 等)
  • 服务器数量适中(16~64 台),每台 8 GPU 的标准配置
  • 对 TP AllReduce 延迟极度敏感的在线推理场景

拓扑对比分析

维度RingFat-TreeDragonflyRail-Optimized
典型规模2~16 节点8~8192 节点64~10000+ 节点8~512 节点
AllReduce 效率小规模优,大规模差全规模稳定高效跨 group 有开销TP 对齐时最优
AllToAll 效率差(序列化严重)好(全等分带宽)group 内优,跨差跨 rail 差
点对点延迟O(N) 跳O(log N) 跳最多 3 跳,极低1~2 跳(rail内)
成本最低最高中等低~中
容错性差(单点故障)优(多路径)中(group 间单路)
实现复杂度高(自适应路由)低~中
代表产品NVLink DGX A100IB HDR/NDR 集群Cray SlingshotIB Quantum-2 Rail
Tier6+ 适配性已支持(c2c ring)需要交换机建模超出当前目标规模中期目标

Tier6+ 平台设计建议

拓扑配置格式扩展

当前 Tier6+ 的拓扑配置使用层次化参数(c2c/b2b/r2r/p2p),建议在此基础上增加显式的拓扑类型声明交换机节点支持,同时保持与现有层次格式的兼容接口。

推荐的配置格式扩展方向(YAML 伪代码示例):

# 拓扑声明
name: "B4-C32-FatTree"
topology_type: fat_tree # ring | fat_tree | rail_optimized | custom

# 节点定义(芯片)
nodes:
- id_range: "chip_0..chip_31"
type: SG2262
count: 32

# 交换机定义(可选,默认全互联)
switches:
- id: "sw_edge_0"
tier: edge
ports: 16
bandwidth_per_port_gbps: 400
latency_us: 0.5
- id: "sw_core_0"
tier: core
ports: 16
bandwidth_per_port_gbps: 400
latency_us: 0.5

# 连接关系(可选,支持自动生成或手动指定)
links:
# 自动生成模式
auto_generate:
type: fat_tree
k: 8 # k-ary fat-tree
uplink_bandwidth_gbps: 400
downlink_bandwidth_gbps: 400

建议支持的拓扑优先级

考虑到 32~64 芯的目标规模和工程实现复杂度,建议分阶段支持:

阶段一(近期,当前目标)

  • Ring 拓扑:已有基础,完善交换机节点建模,支持环形拓扑的 hop-count 路由
  • 全互联(All-to-All):同一 board 内 chip 间全互联,作为 c2c 的精确建模

阶段二(中期)

  • Rail-Optimized:支持 ToR 交换机节点,建模 rail 内/跨 rail 带宽差异
  • 2-level Fat-Tree:Edge + Spine 两层交换机,支持 8~64 芯规模

阶段三(远期)

  • 3-level Fat-Tree:Edge + Aggregation + Core,支持 64~512 芯
  • Dragonfly:group 结构,适用于超大规模训练集群仿真

核心建模要素

无论采用哪种拓扑,Tier6+ 平台都需要建模以下要素:

  1. 交换机端口竞争:多个流共享同一端口时的带宽分摊
  2. 多路径路由:Fat-Tree/Rail 中存在多条等价路径,需建模 ECMP 负载均衡
  3. Hop Count 延迟累计:每经过一跳交换机增加固定延迟(0.10.5 μs/hop)
  4. 集合通信流量展开:AllReduce/AllToAll 在给定拓扑上的实际流量矩阵

与现有层次结构的关系

现有的 c2c/b2b/r2r/p2p 层次结构可视为对不同拓扑的带宽-延迟参数化抽象。建议保留其作为快速估算路径,新增显式拓扑图模型作为精确仿真路径:

  • 快速路径(数学模型):沿用 c2c/b2b/r2r/p2p 参数,适用于 sweep 大量配置
  • 精确路径(G5 事件仿真):使用显式拓扑图 + 交换机节点,适用于精细 profiling

参考资料

  • Besta, M., & Hoefler, T. (2014). Slim Fly: A Cost Effective Low-Diameter Network Topology. SC '14.
  • Al-Fares, M., Loukissas, A., & Vahdat, A. (2008). A Scalable, Commodity Data Center Network Architecture. SIGCOMM '08. — Fat-Tree 原始论文
  • Kim, J., Dally, W., Scott, S., & Abts, D. (2008). Technology-Driven, Highly-Scalable Dragonfly Topology. ISCA '08.
  • NVIDIA. (2022). NVIDIA DGX SuperPOD: Next Generation Scalable Infrastructure for AI Leadership. Whitepaper.
  • NVIDIA. (2023). Quantum-2 InfiniBand Architecture. Technical Overview.
  • Shoeybi, M., et al. (2019). Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism. arXiv:1909.08053. — TP 通信模式分析
  • DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437. — MoE AllToAll 通信分析
  • Lepikhin, D., et al. (2021). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. ICLR 2021. — EP 路由通信分析