跳到主要内容

厂商集群拓扑深度剖析

关联:总览.md — 名词定义 | fat-tree.md — Fat-tree 详解 | torus.md — Torus 详解

本文分析各 AI 芯片厂商的实际集群拓扑设计:设计哲学、层级结构、关键参数、实测数据。

厂商集群互联拓扑层级对比

厂商节点内拓扑互联协议集群级拓扑带宽断崖
NVIDIANVSwitch Full Mesh(H100: 8 GPU 900 GB/s, NVL72: 72 GPU 1800 GB/s)ConnectX-7/8 NIC, IB NDR/XDR 400-800 GbpsRail-Optimized Fat-tree, 100K+ GPU, SHARP 网内计算18-36x
Google TPU无"节点"概念,所有芯片 ICI 直连(2.4-9.6 Tbps/chip)ICI 自研,跨 rack 用 OCS 光路3D Torus + OCS(v5p: 8960, Ironwood: 9216)无断崖
MetaNVLink + NVSwitch(Grand Teton: 8 GPU 900 GB/s)RoCE v2 400GbE,成本低 30-50%5-tier Clos Spine-Leaf, 35K+ GPU~18x
AMDIF4 Ring 8 XCD(MI300X: 相邻 200 GB/s, RCCL 实测 750-800 GB/s)PCIe Gen5 / 以太网 ~63 GB/sHPE Slingshot Dragonfly(El Capitan: 44,544 MI300A)~32x
Intel GaudiRoCEv2 Full Mesh(21 端口 scale-up, 8 芯片 4.2 Tbps)RoCEv2 200GbE(3 端口 scale-out, 统一协议)Fat-tree 以太网7:1
华为昇腾HCCS/UB Full Mesh(910B: 8×~400 GB/s, CM384: 384×2.8 Tbps 全光)RoCEv2 400 GbpsCloudEngine Spine-Leaf, CE16800待测

NVIDIA:NVSwitch 全互联 + Fat-tree 集群

设计哲学

节点内不惜成本追求全互联,节点间使用成熟的 Fat-tree。

NVIDIA 的拓扑策略基于一个核心判断:TP(张量并行)的通信量最大且对延迟最敏感,必须在全互联域内完成。节点间通信(DP/PP/EP)的容忍度更高,用 Fat-tree 的成熟生态即可。

节点内拓扑:NVSwitch 全互联

DGX H100(8 GPU)

每颗 H100 有 18 条 NVLink 4.0 链路(每条 25 GB/s 单向,50 GB/s 双向),分配到 4 颗 NVSwitch 3.0(每颗连接 4-5 条链路),总双向带宽 900 GB/s/GPU(= 18 × 50 GB/s)。

NVSwitch 3.0 每颗有 64 个 NVLink 端口,4 颗 NVSwitch 交叉连接 8 个 GPU,形成逻辑全互联——任意 GPU 对之间可通过任何 NVSwitch 转发。

来源:NVIDIA DGX H100 Whitepaper

GB200 NVL72(72 GPU)

参数
GPU 数72(36 Grace-Blackwell Superchip,每个含 2 B200)
NVSwitch 数18(NVSwitch 4.0,每颗 72 NVLink 端口)
每 GPU NVLink 链路18(NVLink 5.0,50 GB/s/link)
每 GPU 双向带宽1,800 GB/s
物理构成1 rack: 18 compute trays × 4 GPUs/tray + 9 NVLink Switch trays

为什么是 72 而非 64 或 128:72 = 36 Superchip × 2 GPUs,受 Grace-Blackwell Superchip 的 D2D 链路和机架物理空间限制。NVSwitch 4.0 有 72 个 NVLink 端口,18 颗提供 1296 端口,恰好连接 72 GPU × 18 links/GPU。128 GPU 需要更多 NVSwitch,功耗和散热超出单 rack 承受能力。

来源:NVIDIA GB200 NVL72

NVL72 NVLink 域拓扑

系统规模实现方式每 GPU 带宽
DGX A1008 GPU6× NVSwitch 2.0600 GB/s 双向
DGX H1008 GPU4× NVSwitch 3.0900 GB/s 双向
GB200 NVL7272 GPU18× NVSwitch 4.01,800 GB/s 双向

节点间拓扑:Rail-Optimized Fat-tree

SuperPOD 架构(H100 版本)

层级组件连接方式
节点内8 GPU + 4 NVSwitchNVLink 4.0 全互联,900 GB/s/GPU
节点间(同 Rail)所有节点的 GPU_i -> ToR Rail-iConnectX-7 400Gbps IB NDR
跨 RailToR -> Spine 交换机IB NDR 400Gbps
跨 SuperPODSpine -> Core 交换机IB NDR 400Gbps

Rail-Optimized 设计要点

  • 每个 DGX H100 的 8 个 GPU 各有一个 ConnectX-7 NIC(400Gbps)
  • 同编号 GPU 连接到同一 ToR(称为一个 Rail)
  • DP AllReduce 天然在 Rail 内完成,不需要 Spine 层
  • Spine 层只处理 TP/PP 跨节点通信和少量跨 Rail 流量

带宽断崖:NVLink 900 GB/s vs IB 400Gbps (50 GB/s) = 18:1 带宽比。这是并行策略映射的核心约束——TP 必须在 NVLink 域内,PP/DP 走网络。NVL72 的断崖更大:NVLink 1,800 GB/s vs 网络 ~400Gbps = 36:1

来源:NVIDIA DGX SuperPOD Reference Architecture

SHARP 网内计算

NVIDIA SHARP 在 InfiniBand Quantum 交换机上实现网内 AllReduce:

指标无 SHARP有 SHARP
AllReduce 延迟$2 \log_2 N \cdot \alpha$$\log_2 N \cdot \alpha$
网络总传输量$2 \cdot \frac{N-1}{N} \cdot M$$\frac{N-1}{N} \cdot M$
实测改善基准延迟降低 2x,有效带宽提升 30-50%

SHARP 要求 Mellanox/NVIDIA Quantum 系列 IB 交换机,这是 NVIDIA IB 生态的护城河之一。

来源:NVIDIA SHARP Documentation

实测数据

配置消息大小AllReduce 带宽来源
8× H100 节点内 NVLink1 GB~450 GB/s (bus BW)NVIDIA 官方 benchmark
32× H100 跨 4 节点 IB NDR1 GB~380 Gbps (per GPU)公开 nccl-tests 结果
NVL72 节点内 NVLink1 GB~839 GB/s (bus BW)CoreWeave nccl-tests
NVL72 AllGather1 GB~1,600 GB/s (bus BW)CoreWeave nccl-tests

典型集群

集群规模节点内节点间
NVIDIA Eos10,752 H100NVSwitch 全互联IB NDR Fat-tree
xAI Colossus100,000 H100NVSwitch 全互联IB Fat-tree
CoreWeave1,440 B200NVL72IB XDR + SHARP
Meta RSC16,384 A100NVSwitch 全互联IB HDR Fat-tree
Oracle OCI~16,000 H100NVSwitch 全互联IB NDR Fat-tree

Google TPU:3D Torus 单拓扑到底

设计哲学

与 NVIDIA 的"节点内全互联 + 节点间交换"分层相反,Google 用单一 Torus 拓扑贯穿整个 Pod。

所有 TPU 芯片地位平等,不区分"节点内"和"节点间"。跨机架使用 OCS 光路交换将电信号转为光信号传输,逻辑上仍是 Torus 的一部分。

这是因为 Google 自研 TPU 芯片,可以在芯片上集成 ICI(Inter-Chip Interconnect)端口,直接构建 Torus 而无需外部交换机。

TPU 代际演进

代际拓扑维度配置Pod 规模每芯片 ICI 带宽关键变化
v2 (2017)2D Torus16×16256~500 Gbps首个 TPU Pod
v3 (2018)2D Torus~32×321,024~656 Gbps规模 4x
v4 (2020)3D Torus4×4×4 cube, OCS 重配4,096~2.4 Tbps加入 OCS 层
v5p (2023)3D Torus16×20×288,960~4.8 Tbps最大 Torus Pod
Trillium v6e (2024)2D Torus16×16256~6.4 Tbps回退 2D,带宽提升
Ironwood v7 (2025)3D Torus多维9,216~9.6 Tbps最大 ICI 带宽

来源:TPU v4, ISCA 2023Google Cloud TPU v5p

TPU v4 深度分析

架构:4×4×4 cube + OCS 重配

  • 每颗 TPU v4 有 6 个 ICI 端口(3 维 × 2 方向),每端口 ~400 Gbps,总 ~2.4 Tbps
  • 基本构建块为 4×4×4 cube(64 chips),在物理上对应一个 rack
  • cube 间通过 OCS 光路交换动态连接,可灵活组合为不同形状的 Torus(如 8×8×64, 4×16×64 等)

OCS 层设计

  • 每个 4×4 "slice" 有 16 颗芯片的 Z 维出口端口
  • OCS 将这些端口动态连接到其他 slice 的对应端口
  • 支持将 4096 芯片灵活划分为多个独立 Torus 子集群
  • 例如:一个物理 SuperPod 可同时运行一个 4×4×128 (2048 chips) 和两个 4×4×64 (1024 chips) 的独立作业

来源:Jouppi et al., ISCA 2023

TPU v4 常见拓扑配置

TPU v4 Torus 环绕边

Trillium v6e 回退 2D 的原因

  • 每芯片 ICI 带宽提升至 ~6.4 Tbps,4 个 ICI 端口(2D × 2 方向)
  • 回到 2D Torus(16×16 = 256 chips/pod),将大规模扩展完全交给 Orbiter 跨 Pod OCS
  • 设计哲学转变:Pod 内用高带宽小规模 Torus,Pod 间用 OCS 弹性扩展

与 NVIDIA 方案对比

维度NVIDIAGoogle TPU
节点内拓扑Full Mesh (NVSwitch)无"节点内"概念
节点间拓扑Fat-tree (IB)同一 Torus
带宽断崖18-36x (NVLink vs IB)无断崖(所有 ICI 链路相同)
交换机需要大量 IB 交换机无交换机(直连 Torus)
灵活性标准化、多厂商自研、定制化
AllToAll 效率高(Fat-tree 全割集带宽)低(Torus 割集带宽不足)
网络成本占 TCO30-40%<10%

Meta:RoCE 以太网 Fat-tree

设计哲学

Meta 是唯一在大规模 AI 训练集群上主动选择 RoCE 而非 InfiniBand 的主要厂商。

动机(来源:Meta Engineering BlogSIGCOMM 2024):

  1. 供应商多样性:避免锁定 NVIDIA/Mellanox 交换机生态
  2. 运维一致性:AI 训练流量与存储、管理流量共用同一以太网基础设施
  3. 成本:以太网交换机比 IB 交换机便宜 30-50%
  4. 开源控制:使用 Arista/Broadcom 交换机 + 自研 SDN 控制器

网络架构

参数
拓扑5-tier Clos(Spine-Leaf 扩展到 5 级)
过订阅比1:1(全带宽无阻塞)
拥塞控制PFC + ECN + DCQCN + E-ECMP
负载均衡ECMP + 自适应包喷射 (packet spraying)
交换机Arista 7800R3 (Spine) + 7060X5 (Leaf)
单 GPU 上行带宽400GbE × 1 NIC

5-tier 而非 3-tier 的原因:35K+ GPU 需要的端口数超过了 3-tier Fat-tree 在 400GbE 交换机下的容量。5-tier(Leaf -> T1 Spine -> T2 Spine -> T3 Spine -> T4 Spine)提供了足够的端口密度。

RoCE vs InfiniBand 的工程权衡

维度RoCE (Meta)InfiniBand (NVIDIA)
交换机成本~$625-860/port~$940-1170/port
拥塞控制软件实现 (DCQCN)硬件实现 (Credit-based)
无损保证需要 PFC + ECN 调优原生信用流控
网内计算SHARP
生态锁定多厂商 (Arista/Broadcom/Cisco)单厂商 (NVIDIA/Mellanox)

E-ECMP(Enhanced ECMP):Meta 在标准 ECMP 基础上开发了增强版负载均衡,结合自适应包喷射(packet spraying),在 Elephant flow(如 AllReduce 大消息)场景下将链路利用率从 ~60% 提升至 ~90%。

Llama 3 训练实测:Meta 在 16,384 颗 H100 上训练 Llama 3 405B,报告整体 MFU 达 38-43%。网络是主要瓶颈——跨节点 AllReduce 占 DP 通信时间的 ~30%。

来源:Meta, "The Llama 3 Herd of Models"

典型集群

集群规模节点网络
Meta RSC v16,144 A100Grand TetonIB HDR Fat-tree
Meta RSC v216,384 A100Grand TetonIB HDR Fat-tree
Meta AI Cluster35,000+ H100Grand Teton v2RoCE 400GbE 5-tier Clos

AMD:封装内环形 + Dragonfly 集群

MI300X 封装内拓扑

MI300X 的 8 个计算 Die (XCD) 排列在中央 IOD(I/O Die)周围,通过 Infinity Fabric 4 (IF4) 以环形连接。

参数
XCD 数8
连接方式环形(每 XCD 连接相邻 2 个 XCD)
相邻 XCD 间带宽~200 GB/s
2-hop XCD 间带宽~50-70 GB/s(经中间 XCD 转发)
总封装内带宽~896 GB/s 聚合

来源:Chips and Cheese, MI300X IF Topology Analysis

MI300X 节点级架构

与 NVIDIA NVSwitch 的关键差异:NVSwitch 实现全互联(任意 GPU 对等带宽),MI300X 的环形导致非相邻 Die 间带宽显著衰减。RCCL 需要感知拓扑来优化通信路径。

8-GPU 系统实测:MI300X 8-GPU 节点 RCCL AllReduce 实测带宽约 750-800 GB/s (bus BW),接近理论峰值 ~896 GB/s 的 84-89%。

跨封装互联

MI300X 跨封装(多 GPU 服务器间)通过 PCIe Gen5 x16(~63 GB/s)或 Infinity Fabric over PCIe,远低于 NVLink。这是 AMD 方案在 TP 场景的主要短板。

集群级拓扑

AMD GPU 没有自研集群互联,依赖第三方网络:

集群规模互联拓扑
El Capitan (LLNL)44,544 MI300AHPE Slingshot-11Dragonfly
Frontier (ORNL)37,888 MI250XHPE Slingshot-11Dragonfly

AMD GPU 集群倾向使用 Dragonfly 而非 Fat-tree,原因是这些系统由 HPE Cray 集成,Slingshot 是 HPE 的自研互联产品。


Intel Gaudi:统一 RoCEv2 拓扑

设计哲学

Gaudi 是唯一不区分节点内/节点间互联协议的方案——全部使用 RoCEv2。

Gaudi3 架构

参数
每芯片 RoCEv2 端口24 × 200Gbps
片上以太网交换引擎内置
端口分配21 端口节点内 (scale-up) + 3 端口节点间 (scale-out)
节点内连接8 芯片用 21 端口/芯片构成全互联 Mesh(每对 3 条链路)
节点间连接3 端口/芯片连接外部以太网交换机
每芯片聚合带宽4.8 Tbps (24 × 200G)
节点内带宽4.2 Tbps/芯片 (21 × 200G)
节点间带宽600 Gbps/芯片 (3 × 200G)

21/3 端口分配决定了 7:1 的带宽断崖(4.2 Tbps vs 0.6 Tbps)——虽然协议相同(都是 RoCEv2),但物理端口数量的不对称仍然造成了带宽层级差异。

来源:Intel Gaudi3 White Paper

Gaudi3 端口拓扑

统一协议的权衡

维度优势劣势
协议统一节点内外同一协议,运维简单-
扩展平滑性从 8 到数百芯片的通信模式一致-
带宽断崖-21/3 端口分配仍导致 7:1 带宽比
节点内带宽-聚合 ~525 GB/s (双向),低于 NVLink 900-1800 GB/s

华为昇腾:HCCS 全互联 + UB-Mesh

设计哲学演进

华为互联方案经历了三代技术路线:

阶段产品节点内互联规模
第一代Ascend 910BHCCS (电互联)8 NPU 全互联
第二代CloudMatrix 384UB 全光互联 (L1/L2 交换)384 NPU
第三代UB-Mesh分层 nD 全互联8K+ NPU

UB(Ultra Bus / Unified Bus) 是华为自研互联协议,设计目标是统一替代 PCIe、CXL、NVLink 和 TCP/IP。华为在 Hot Chips 2025 宣布计划开源 UB-Mesh。

Ascend 910C UB 端口规格

每颗 Ascend 910C 是双 Die 封装(两个 910B Die 集成在同一基板上):

参数
Die 数2
UB 链路/Die7 × 224 Gbps(原始 SerDes 速率)
总 UB 带宽/芯片~2.8 Tbps(14 链路 × ~200 Gbps 有效速率)
光模块14 × 400G LPO 光收发器/芯片

注意单位:Huawei 的 2.8 Tbps 使用"比特"单位;NVIDIA NVLink 5.0 的 1.8 TB/s 使用"字节"单位(= 14.4 Tbps)。换算后 NVLink 5.0 单芯片带宽约为 UB 的 5 倍,华为以规模优势(384 NPU vs 72 GPU)补偿单芯片带宽差距。

来源:UB-Mesh arxiv 2503.20377SemiAnalysis CloudMatrix 384

CloudMatrix 384 物理架构

CloudMatrix 384 是 UB-Mesh 单 Pod 实现,包含 384 颗 Ascend 910C NPU 和 192 颗鲲鹏 CPU:

组件数量说明
计算机架12每机架 32 NPU(4 节点 × 8 NPU/节点)
通信机架4容纳 L2 UB 交换芯片
总机架数16
400G 光模块总量6,912UB 平面 5,376 个 + RDMA/VPC 其余

两级非阻塞交换架构

每颗 NPU(14 个 400G 光口)-> 本节点 L1 UB 交换机(7 颗)-> 通信机架 L2 UB 交换机(7 子平面 × 16 芯片/平面,每芯片 48 端口)

关键性能指标(来源:arxiv 2506.12708):

  • 跨节点带宽衰减 <3%(相对节点内)
  • 跨节点延迟增加 <1 μs
  • 支持 EP320(跨 320 颗 NPU 的 Expert Parallelism)

UB-Mesh 分层架构(8K+ NPU)

维度规模互联介质
1D-2D(机架内)64 NPU (8×8 全互联)无源铜缆(~1m)
3D-4D(Pod 内)1,024 NPU/Pod (16 机架)有源铜缆/光纤
5D+(跨 Pod)8K+ NPUClos 骨干

UB-Mesh vs Clos 声明的优势(来源:论文 Table 2):

  • 少用 98% 的高基数交换机
  • 少用 93% 的光模块
  • 成本效率提升 2.04×
  • 训练吞吐达 Clos 方案的 93-96%

推理性能基准

DeepSeek-R1 671B INT8 推理(384 NPU 全系统,来源:arxiv 2506.12708):

指标数值
Prefill 速度6,688 tokens/s/NPU
Decode 速度1,943 tokens/s/NPU(TPOT <50 ms)
Expert Parallelism 规模EP320

与 NVIDIA NVL72 的对比

指标华为 CloudMatrix 384NVIDIA GB200 NVL72
加速器数384 NPU72 GPU
每芯片互联带宽2.8 Tbps14.4 Tbps (= 1.8 TB/s)
全互联域规模384 NPU72 GPU
互联介质全光(400G LPO)电气 NVLink + 光 NVSwitch 背板
系统 BF16 算力300 PFLOPS180 PFLOPS
机架数161

厂商拓扑决策总结

厂商节点内节点间设计驱动力
NVIDIAFull Mesh (NVSwitch)Fat-tree (IB)最大化 TP 带宽
Google无"节点"概念3D Torus (ICI)自研芯片,消除带宽断崖
MetaFull Mesh (NVSwitch)5-tier Clos (RoCE)供应商多样性,运维统一
AMDRing (IF4)Dragonfly (Slingshot)依赖 HPE 集成
IntelFull Mesh (RoCEv2, 21 端口)Fat-tree (RoCEv2, 3 端口)统一协议,7:1 带宽比
华为HCCS(910B)/UB L1-L2 交换(CM384)Spine-Leaf (RoCE)910B: 8 芯片;CM384: 384 NPU,光互联跨机架

核心洞察

  1. 只有 Google 真正消除了带宽断崖——因为自研芯片可以集成 ICI,用同一互联贯穿全 Pod。Intel Gaudi 虽然协议统一(都是 RoCEv2),但 21/3 端口分配仍造成 7:1 带宽比。

  2. Fat-tree 是商用 GPU 集群的唯一选择——使用 NVIDIA/AMD GPU 的厂商只能选择交换网络拓扑(Fat-tree/Clos),因为 GPU 的网络端口是标准 PCIe/以太网/IB,不支持直连 Torus。

  3. Dragonfly 只在 HPC 超算中出现——El Capitan、Frontier 等系统使用 Dragonfly 是因为 HPE Cray 集成商的 Slingshot 互联,不代表 AI 行业趋势。

  4. RoCE vs IB 是成本-性能的权衡——Meta 和华为选择 RoCE 看重成本和生态多样性,NVIDIA 推 IB 看重性能(SHARP、硬件流控)。长期趋势偏向以太网(Ultra Ethernet Consortium 正在标准化 AI 训练场景的以太网优化)。

  5. 全互联域规模竞赛加剧——从 NVL72(72 GPU)到华为 CloudMatrix 384(384 NPU),全互联域的规模正在快速扩大。更大的全互联域意味着更大的 TP 组,可直接容纳更大模型的 TP 分片而无需跨越带宽断崖。


参考文献

厂商文档

资料来源关键内容
NVIDIA DGX H100 WhitepaperNVIDIANVSwitch 3.0 全互联设计
NVIDIA GB200 NVL72NVIDIA72 GPU NVLink 5.0 域
NVIDIA SuperPOD ArchitectureNVIDIARail-Optimized Fat-tree
NVIDIA SHARPNVIDIA网内计算
Google Cloud TPU v5pGoogle3D Torus 规格
Intel Gaudi3 White PaperIntelGaudi3 24 端口 21/3 分配
HPE SlingshotHPEDragonfly+ 互联
华为 CloudMatrix 384华为384 NPU 全光互联
SemiAnalysis: CloudMatrix 384SemiAnalysisL1/L2 交换架构深度分析

论文

论文会议核心贡献
Jouppi et al., "TPU v4"ISCA 20233D Torus + OCS 设计
Meta, "RoCE at Scale"SIGCOMM 2024RoCE 万卡级实践
Mudigere et al., "DLRM Training"ISCA 2022Rail-Optimized 部署
Meta, "The Llama 3 Herd of Models"arXiv 202416K GPU 训练实测 MFU 38-43%
CloudMatrix384 LLM ServingarXiv 2025DeepSeek-R1 推理基准
UB-Mesh: nD-FullMesharXiv 2025UB-Mesh 分层架构,8K+ NPU 设计
Chips and Cheese - MI300XChips and CheeseMI300X IF4 环形拓扑带宽分析
CoreWeave nccl-testsCoreWeaveNVL72 AllReduce 实测数据