厂商集群拓扑深度剖析

关联：总览.md — 名词定义 | fat-tree.md — Fat-tree 详解 | torus.md — Torus 详解

本文分析各 AI 芯片厂商的实际集群拓扑设计：设计哲学、层级结构、关键参数、实测数据。

厂商集群互联拓扑层级对比

厂商	节点内拓扑	互联协议	集群级拓扑	带宽断崖
NVIDIA	NVSwitch Full Mesh（H100: 8 GPU 900 GB/s, NVL72: 72 GPU 1800 GB/s）	ConnectX-7/8 NIC, IB NDR/XDR 400-800 Gbps	Rail-Optimized Fat-tree, 100K+ GPU, SHARP 网内计算	18-36x
Google TPU	无"节点"概念，所有芯片 ICI 直连（2.4-9.6 Tbps/chip）	ICI 自研，跨 rack 用 OCS 光路	3D Torus + OCS（v5p: 8960, Ironwood: 9216）	无断崖
Meta	NVLink + NVSwitch（Grand Teton: 8 GPU 900 GB/s）	RoCE v2 400GbE，成本低 30-50%	5-tier Clos Spine-Leaf, 35K+ GPU	~18x
AMD	IF4 Ring 8 XCD（MI300X: 相邻 200 GB/s, RCCL 实测 750-800 GB/s）	PCIe Gen5 / 以太网 ~63 GB/s	HPE Slingshot Dragonfly（El Capitan: 44,544 MI300A）	~32x
Intel Gaudi	RoCEv2 Full Mesh（21 端口 scale-up, 8 芯片 4.2 Tbps）	RoCEv2 200GbE（3 端口 scale-out, 统一协议）	Fat-tree 以太网	7:1
华为昇腾	HCCS/UB Full Mesh（910B: 8×~400 GB/s, CM384: 384×2.8 Tbps 全光）	RoCEv2 400 Gbps	CloudEngine Spine-Leaf, CE16800	待测

NVIDIA：NVSwitch 全互联 + Fat-tree 集群

设计哲学

节点内不惜成本追求全互联，节点间使用成熟的 Fat-tree。

NVIDIA 的拓扑策略基于一个核心判断：TP（张量并行）的通信量最大且对延迟最敏感，必须在全互联域内完成。节点间通信（DP/PP/EP）的容忍度更高，用 Fat-tree 的成熟生态即可。

节点内拓扑：NVSwitch 全互联

DGX H100（8 GPU）：

每颗 H100 有 18 条 NVLink 4.0 链路（每条 25 GB/s 单向，50 GB/s 双向），分配到 4 颗 NVSwitch 3.0（每颗连接 4-5 条链路），总双向带宽 900 GB/s/GPU（= 18 × 50 GB/s）。

NVSwitch 3.0 每颗有 64 个 NVLink 端口，4 颗 NVSwitch 交叉连接 8 个 GPU，形成逻辑全互联——任意 GPU 对之间可通过任何 NVSwitch 转发。

来源：NVIDIA DGX H100 Whitepaper

GB200 NVL72（72 GPU）：

参数	值
GPU 数	72（36 Grace-Blackwell Superchip，每个含 2 B200）
NVSwitch 数	18（NVSwitch 4.0，每颗 72 NVLink 端口）
每 GPU NVLink 链路	18（NVLink 5.0，50 GB/s/link）
每 GPU 双向带宽	1,800 GB/s
物理构成	1 rack: 18 compute trays × 4 GPUs/tray + 9 NVLink Switch trays

为什么是 72 而非 64 或 128：72 = 36 Superchip × 2 GPUs，受 Grace-Blackwell Superchip 的 D2D 链路和机架物理空间限制。NVSwitch 4.0 有 72 个 NVLink 端口，18 颗提供 1296 端口，恰好连接 72 GPU × 18 links/GPU。128 GPU 需要更多 NVSwitch，功耗和散热超出单 rack 承受能力。

来源：NVIDIA GB200 NVL72

NVL72 NVLink 域拓扑

系统	规模	实现方式	每 GPU 带宽
DGX A100	8 GPU	6× NVSwitch 2.0	600 GB/s 双向
DGX H100	8 GPU	4× NVSwitch 3.0	900 GB/s 双向
GB200 NVL72	72 GPU	18× NVSwitch 4.0	1,800 GB/s 双向

节点间拓扑：Rail-Optimized Fat-tree

SuperPOD 架构（H100 版本）：

层级	组件	连接方式
节点内	8 GPU + 4 NVSwitch	NVLink 4.0 全互联，900 GB/s/GPU
节点间（同 Rail）	所有节点的 GPU_i -> ToR Rail-i	ConnectX-7 400Gbps IB NDR
跨 Rail	ToR -> Spine 交换机	IB NDR 400Gbps
跨 SuperPOD	Spine -> Core 交换机	IB NDR 400Gbps

Rail-Optimized 设计要点：

每个 DGX H100 的 8 个 GPU 各有一个 ConnectX-7 NIC（400Gbps）
同编号 GPU 连接到同一 ToR（称为一个 Rail）
DP AllReduce 天然在 Rail 内完成，不需要 Spine 层
Spine 层只处理 TP/PP 跨节点通信和少量跨 Rail 流量

带宽断崖：NVLink 900 GB/s vs IB 400Gbps (50 GB/s) = 18:1 带宽比。这是并行策略映射的核心约束——TP 必须在 NVLink 域内，PP/DP 走网络。NVL72 的断崖更大：NVLink 1,800 GB/s vs 网络 ~400Gbps = 36:1。

来源：NVIDIA DGX SuperPOD Reference Architecture

SHARP 网内计算

NVIDIA SHARP 在 InfiniBand Quantum 交换机上实现网内 AllReduce：

指标	无 SHARP	有 SHARP
AllReduce 延迟	$2 \log_2 N \cdot \alpha$	$\log_2 N \cdot \alpha$
网络总传输量	$2 \cdot \frac{N-1}{N} \cdot M$	$\frac{N-1}{N} \cdot M$
实测改善	基准	延迟降低 2x，有效带宽提升 30-50%

SHARP 要求 Mellanox/NVIDIA Quantum 系列 IB 交换机，这是 NVIDIA IB 生态的护城河之一。

来源：NVIDIA SHARP Documentation

实测数据

配置	消息大小	AllReduce 带宽	来源
8× H100 节点内 NVLink	1 GB	~450 GB/s (bus BW)	NVIDIA 官方 benchmark
32× H100 跨 4 节点 IB NDR	1 GB	~380 Gbps (per GPU)	公开 nccl-tests 结果
NVL72 节点内 NVLink	1 GB	~839 GB/s (bus BW)	CoreWeave nccl-tests
NVL72 AllGather	1 GB	~1,600 GB/s (bus BW)	CoreWeave nccl-tests

典型集群

集群	规模	节点内	节点间
NVIDIA Eos	10,752 H100	NVSwitch 全互联	IB NDR Fat-tree
xAI Colossus	100,000 H100	NVSwitch 全互联	IB Fat-tree
CoreWeave	1,440 B200	NVL72	IB XDR + SHARP
Meta RSC	16,384 A100	NVSwitch 全互联	IB HDR Fat-tree
Oracle OCI	~16,000 H100	NVSwitch 全互联	IB NDR Fat-tree

Google TPU：3D Torus 单拓扑到底

设计哲学

与 NVIDIA 的"节点内全互联 + 节点间交换"分层相反，Google 用单一 Torus 拓扑贯穿整个 Pod。

所有 TPU 芯片地位平等，不区分"节点内"和"节点间"。跨机架使用 OCS 光路交换将电信号转为光信号传输，逻辑上仍是 Torus 的一部分。

这是因为 Google 自研 TPU 芯片，可以在芯片上集成 ICI（Inter-Chip Interconnect）端口，直接构建 Torus 而无需外部交换机。

TPU 代际演进

代际	拓扑	维度配置	Pod 规模	每芯片 ICI 带宽	关键变化
v2 (2017)	2D Torus	16×16	256	~500 Gbps	首个 TPU Pod
v3 (2018)	2D Torus	~32×32	1,024	~656 Gbps	规模 4x
v4 (2020)	3D Torus	4×4×4 cube, OCS 重配	4,096	~2.4 Tbps	加入 OCS 层
v5p (2023)	3D Torus	16×20×28	8,960	~4.8 Tbps	最大 Torus Pod
Trillium v6e (2024)	2D Torus	16×16	256	~6.4 Tbps	回退 2D，带宽提升
Ironwood v7 (2025)	3D Torus	多维	9,216	~9.6 Tbps	最大 ICI 带宽

来源：TPU v4, ISCA 2023、Google Cloud TPU v5p

TPU v4 深度分析

架构：4×4×4 cube + OCS 重配

每颗 TPU v4 有 6 个 ICI 端口（3 维 × 2 方向），每端口 ~400 Gbps，总 ~2.4 Tbps
基本构建块为 4×4×4 cube（64 chips），在物理上对应一个 rack
cube 间通过 OCS 光路交换动态连接，可灵活组合为不同形状的 Torus（如 8×8×64, 4×16×64 等）

OCS 层设计：

每个 4×4 "slice" 有 16 颗芯片的 Z 维出口端口
OCS 将这些端口动态连接到其他 slice 的对应端口
支持将 4096 芯片灵活划分为多个独立 Torus 子集群
例如：一个物理 SuperPod 可同时运行一个 4×4×128 (2048 chips) 和两个 4×4×64 (1024 chips) 的独立作业

来源：Jouppi et al., ISCA 2023

TPU v4 常见拓扑配置

TPU v4 Torus 环绕边

Trillium v6e 回退 2D 的原因

每芯片 ICI 带宽提升至 ~6.4 Tbps，4 个 ICI 端口（2D × 2 方向）
回到 2D Torus（16×16 = 256 chips/pod），将大规模扩展完全交给 Orbiter 跨 Pod OCS
设计哲学转变：Pod 内用高带宽小规模 Torus，Pod 间用 OCS 弹性扩展

与 NVIDIA 方案对比

维度	NVIDIA	Google TPU
节点内拓扑	Full Mesh (NVSwitch)	无"节点内"概念
节点间拓扑	Fat-tree (IB)	同一 Torus
带宽断崖	18-36x (NVLink vs IB)	无断崖（所有 ICI 链路相同）
交换机	需要大量 IB 交换机	无交换机（直连 Torus）
灵活性	标准化、多厂商	自研、定制化
AllToAll 效率	高（Fat-tree 全割集带宽）	低（Torus 割集带宽不足）
网络成本占 TCO	30-40%	<10%

Meta：RoCE 以太网 Fat-tree

设计哲学

Meta 是唯一在大规模 AI 训练集群上主动选择 RoCE 而非 InfiniBand 的主要厂商。

动机（来源：Meta Engineering Blog、SIGCOMM 2024）：

供应商多样性：避免锁定 NVIDIA/Mellanox 交换机生态
运维一致性：AI 训练流量与存储、管理流量共用同一以太网基础设施
成本：以太网交换机比 IB 交换机便宜 30-50%
开源控制：使用 Arista/Broadcom 交换机 + 自研 SDN 控制器

网络架构

参数	值
拓扑	5-tier Clos（Spine-Leaf 扩展到 5 级）
过订阅比	1:1（全带宽无阻塞）
拥塞控制	PFC + ECN + DCQCN + E-ECMP
负载均衡	ECMP + 自适应包喷射 (packet spraying)
交换机	Arista 7800R3 (Spine) + 7060X5 (Leaf)
单 GPU 上行带宽	400GbE × 1 NIC

5-tier 而非 3-tier 的原因：35K+ GPU 需要的端口数超过了 3-tier Fat-tree 在 400GbE 交换机下的容量。5-tier（Leaf -> T1 Spine -> T2 Spine -> T3 Spine -> T4 Spine）提供了足够的端口密度。

RoCE vs InfiniBand 的工程权衡

维度	RoCE (Meta)	InfiniBand (NVIDIA)
交换机成本	~$625-860/port	~$940-1170/port
拥塞控制	软件实现 (DCQCN)	硬件实现 (Credit-based)
无损保证	需要 PFC + ECN 调优	原生信用流控
网内计算	无	SHARP
生态锁定	多厂商 (Arista/Broadcom/Cisco)	单厂商 (NVIDIA/Mellanox)

E-ECMP（Enhanced ECMP）：Meta 在标准 ECMP 基础上开发了增强版负载均衡，结合自适应包喷射（packet spraying），在 Elephant flow（如 AllReduce 大消息）场景下将链路利用率从 ~60% 提升至 ~90%。

Llama 3 训练实测：Meta 在 16,384 颗 H100 上训练 Llama 3 405B，报告整体 MFU 达 38-43%。网络是主要瓶颈——跨节点 AllReduce 占 DP 通信时间的 ~30%。

来源：Meta, "The Llama 3 Herd of Models"

典型集群

集群	规模	节点	网络
Meta RSC v1	6,144 A100	Grand Teton	IB HDR Fat-tree
Meta RSC v2	16,384 A100	Grand Teton	IB HDR Fat-tree
Meta AI Cluster	35,000+ H100	Grand Teton v2	RoCE 400GbE 5-tier Clos

AMD：封装内环形 + Dragonfly 集群

MI300X 封装内拓扑

MI300X 的 8 个计算 Die (XCD) 排列在中央 IOD（I/O Die）周围，通过 Infinity Fabric 4 (IF4) 以环形连接。

参数	值
XCD 数	8
连接方式	环形（每 XCD 连接相邻 2 个 XCD）
相邻 XCD 间带宽	~200 GB/s
2-hop XCD 间带宽	~50-70 GB/s（经中间 XCD 转发）
总封装内带宽	~896 GB/s 聚合

来源：Chips and Cheese, MI300X IF Topology Analysis

MI300X 节点级架构

与 NVIDIA NVSwitch 的关键差异：NVSwitch 实现全互联（任意 GPU 对等带宽），MI300X 的环形导致非相邻 Die 间带宽显著衰减。RCCL 需要感知拓扑来优化通信路径。

8-GPU 系统实测：MI300X 8-GPU 节点 RCCL AllReduce 实测带宽约 750-800 GB/s (bus BW)，接近理论峰值 ~896 GB/s 的 84-89%。

跨封装互联

MI300X 跨封装（多 GPU 服务器间）通过 PCIe Gen5 x16（~63 GB/s）或 Infinity Fabric over PCIe，远低于 NVLink。这是 AMD 方案在 TP 场景的主要短板。

集群级拓扑

AMD GPU 没有自研集群互联，依赖第三方网络：

集群	规模	互联	拓扑
El Capitan (LLNL)	44,544 MI300A	HPE Slingshot-11	Dragonfly
Frontier (ORNL)	37,888 MI250X	HPE Slingshot-11	Dragonfly

AMD GPU 集群倾向使用 Dragonfly 而非 Fat-tree，原因是这些系统由 HPE Cray 集成，Slingshot 是 HPE 的自研互联产品。

Intel Gaudi：统一 RoCEv2 拓扑

设计哲学

Gaudi 是唯一不区分节点内/节点间互联协议的方案——全部使用 RoCEv2。

Gaudi3 架构

参数	值
每芯片 RoCEv2 端口	24 × 200Gbps
片上以太网交换引擎	内置
端口分配	21 端口节点内 (scale-up) + 3 端口节点间 (scale-out)
节点内连接	8 芯片用 21 端口/芯片构成全互联 Mesh（每对 3 条链路）
节点间连接	3 端口/芯片连接外部以太网交换机
每芯片聚合带宽	4.8 Tbps (24 × 200G)
节点内带宽	4.2 Tbps/芯片 (21 × 200G)
节点间带宽	600 Gbps/芯片 (3 × 200G)

21/3 端口分配决定了 7:1 的带宽断崖（4.2 Tbps vs 0.6 Tbps）——虽然协议相同（都是 RoCEv2），但物理端口数量的不对称仍然造成了带宽层级差异。

来源：Intel Gaudi3 White Paper

Gaudi3 端口拓扑

统一协议的权衡

维度	优势	劣势
协议统一	节点内外同一协议，运维简单	-
扩展平滑性	从 8 到数百芯片的通信模式一致	-
带宽断崖	-	21/3 端口分配仍导致 7:1 带宽比
节点内带宽	-	聚合 ~525 GB/s (双向)，低于 NVLink 900-1800 GB/s

华为昇腾：HCCS 全互联 + UB-Mesh

设计哲学演进

华为互联方案经历了三代技术路线：

阶段	产品	节点内互联	规模
第一代	Ascend 910B	HCCS (电互联)	8 NPU 全互联
第二代	CloudMatrix 384	UB 全光互联 (L1/L2 交换)	384 NPU
第三代	UB-Mesh	分层 nD 全互联	8K+ NPU

UB（Ultra Bus / Unified Bus） 是华为自研互联协议，设计目标是统一替代 PCIe、CXL、NVLink 和 TCP/IP。华为在 Hot Chips 2025 宣布计划开源 UB-Mesh。

Ascend 910C UB 端口规格

每颗 Ascend 910C 是双 Die 封装（两个 910B Die 集成在同一基板上）：

参数	值
Die 数	2
UB 链路/Die	7 × 224 Gbps（原始 SerDes 速率）
总 UB 带宽/芯片	~2.8 Tbps（14 链路 × ~200 Gbps 有效速率）
光模块	14 × 400G LPO 光收发器/芯片

注意单位：Huawei 的 2.8 Tbps 使用"比特"单位；NVIDIA NVLink 5.0 的 1.8 TB/s 使用"字节"单位（= 14.4 Tbps）。换算后 NVLink 5.0 单芯片带宽约为 UB 的 5 倍，华为以规模优势（384 NPU vs 72 GPU）补偿单芯片带宽差距。

来源：UB-Mesh arxiv 2503.20377、SemiAnalysis CloudMatrix 384

CloudMatrix 384 物理架构

CloudMatrix 384 是 UB-Mesh 单 Pod 实现，包含 384 颗 Ascend 910C NPU 和 192 颗鲲鹏 CPU：

组件	数量	说明
计算机架	12	每机架 32 NPU（4 节点 × 8 NPU/节点）
通信机架	4	容纳 L2 UB 交换芯片
总机架数	16
400G 光模块总量	6,912	UB 平面 5,376 个 + RDMA/VPC 其余

两级非阻塞交换架构：

每颗 NPU（14 个 400G 光口）-> 本节点 L1 UB 交换机（7 颗）-> 通信机架 L2 UB 交换机（7 子平面 × 16 芯片/平面，每芯片 48 端口）

关键性能指标（来源：arxiv 2506.12708）：

跨节点带宽衰减 <3%（相对节点内）
跨节点延迟增加 <1 μs
支持 EP320（跨 320 颗 NPU 的 Expert Parallelism）

UB-Mesh 分层架构（8K+ NPU）

维度	规模	互联介质
1D-2D（机架内）	64 NPU (8×8 全互联)	无源铜缆（~1m）
3D-4D（Pod 内）	1,024 NPU/Pod (16 机架)	有源铜缆/光纤
5D+（跨 Pod）	8K+ NPU	Clos 骨干

UB-Mesh vs Clos 声明的优势（来源：论文 Table 2）：

少用 98% 的高基数交换机
少用 93% 的光模块
成本效率提升 2.04×
训练吞吐达 Clos 方案的 93-96%

推理性能基准

DeepSeek-R1 671B INT8 推理（384 NPU 全系统，来源：arxiv 2506.12708）：

指标	数值
Prefill 速度	6,688 tokens/s/NPU
Decode 速度	1,943 tokens/s/NPU（TPOT <50 ms）
Expert Parallelism 规模	EP320

与 NVIDIA NVL72 的对比

指标	华为 CloudMatrix 384	NVIDIA GB200 NVL72
加速器数	384 NPU	72 GPU
每芯片互联带宽	2.8 Tbps	14.4 Tbps (= 1.8 TB/s)
全互联域规模	384 NPU	72 GPU
互联介质	全光（400G LPO）	电气 NVLink + 光 NVSwitch 背板
系统 BF16 算力	300 PFLOPS	180 PFLOPS
机架数	16	1

厂商拓扑决策总结

厂商	节点内	节点间	设计驱动力
NVIDIA	Full Mesh (NVSwitch)	Fat-tree (IB)	最大化 TP 带宽
Google	无"节点"概念	3D Torus (ICI)	自研芯片，消除带宽断崖
Meta	Full Mesh (NVSwitch)	5-tier Clos (RoCE)	供应商多样性，运维统一
AMD	Ring (IF4)	Dragonfly (Slingshot)	依赖 HPE 集成
Intel	Full Mesh (RoCEv2, 21 端口)	Fat-tree (RoCEv2, 3 端口)	统一协议，7:1 带宽比
华为	HCCS(910B)/UB L1-L2 交换(CM384)	Spine-Leaf (RoCE)	910B: 8 芯片；CM384: 384 NPU，光互联跨机架

核心洞察：

只有 Google 真正消除了带宽断崖——因为自研芯片可以集成 ICI，用同一互联贯穿全 Pod。Intel Gaudi 虽然协议统一（都是 RoCEv2），但 21/3 端口分配仍造成 7:1 带宽比。
Fat-tree 是商用 GPU 集群的唯一选择——使用 NVIDIA/AMD GPU 的厂商只能选择交换网络拓扑（Fat-tree/Clos），因为 GPU 的网络端口是标准 PCIe/以太网/IB，不支持直连 Torus。
Dragonfly 只在 HPC 超算中出现——El Capitan、Frontier 等系统使用 Dragonfly 是因为 HPE Cray 集成商的 Slingshot 互联，不代表 AI 行业趋势。
RoCE vs IB 是成本-性能的权衡——Meta 和华为选择 RoCE 看重成本和生态多样性，NVIDIA 推 IB 看重性能（SHARP、硬件流控）。长期趋势偏向以太网（Ultra Ethernet Consortium 正在标准化 AI 训练场景的以太网优化）。
全互联域规模竞赛加剧——从 NVL72（72 GPU）到华为 CloudMatrix 384（384 NPU），全互联域的规模正在快速扩大。更大的全互联域意味着更大的 TP 组，可直接容纳更大模型的 TP 分片而无需跨越带宽断崖。

参考文献

厂商文档

资料	来源	关键内容
NVIDIA DGX H100 Whitepaper	NVIDIA	NVSwitch 3.0 全互联设计
NVIDIA GB200 NVL72	NVIDIA	72 GPU NVLink 5.0 域
NVIDIA SuperPOD Architecture	NVIDIA	Rail-Optimized Fat-tree
NVIDIA SHARP	NVIDIA	网内计算
Google Cloud TPU v5p	Google	3D Torus 规格
Intel Gaudi3 White Paper	Intel	Gaudi3 24 端口 21/3 分配
HPE Slingshot	HPE	Dragonfly+ 互联
华为 CloudMatrix 384	华为	384 NPU 全光互联
SemiAnalysis: CloudMatrix 384	SemiAnalysis	L1/L2 交换架构深度分析

论文

论文	会议	核心贡献
Jouppi et al., "TPU v4"	ISCA 2023	3D Torus + OCS 设计
Meta, "RoCE at Scale"	SIGCOMM 2024	RoCE 万卡级实践
Mudigere et al., "DLRM Training"	ISCA 2022	Rail-Optimized 部署
Meta, "The Llama 3 Herd of Models"	arXiv 2024	16K GPU 训练实测 MFU 38-43%
CloudMatrix384 LLM Serving	arXiv 2025	DeepSeek-R1 推理基准
UB-Mesh: nD-FullMesh	arXiv 2025	UB-Mesh 分层架构，8K+ NPU 设计
Chips and Cheese - MI300X	Chips and Cheese	MI300X IF4 环形拓扑带宽分析
CoreWeave nccl-tests	CoreWeave	NVL72 AllReduce 实测数据

厂商集群互联拓扑层级对比​

NVIDIA：NVSwitch 全互联 + Fat-tree 集群​

设计哲学​

节点内拓扑：NVSwitch 全互联​

节点间拓扑：Rail-Optimized Fat-tree​

SHARP 网内计算​

实测数据​

典型集群​

Google TPU：3D Torus 单拓扑到底​

设计哲学​

TPU 代际演进​

TPU v4 深度分析​

Trillium v6e 回退 2D 的原因​

与 NVIDIA 方案对比​

Meta：RoCE 以太网 Fat-tree​

设计哲学​

网络架构​

RoCE vs InfiniBand 的工程权衡​

典型集群​

AMD：封装内环形 + Dragonfly 集群​

MI300X 封装内拓扑​

跨封装互联​

集群级拓扑​

Intel Gaudi：统一 RoCEv2 拓扑​

设计哲学​

Gaudi3 架构​

统一协议的权衡​

华为昇腾：HCCS 全互联 + UB-Mesh​

设计哲学演进​

Ascend 910C UB 端口规格​

CloudMatrix 384 物理架构​

UB-Mesh 分层架构（8K+ NPU）​

推理性能基准​

与 NVIDIA NVL72 的对比​

厂商拓扑决策总结​

参考文献​

厂商文档​

论文​

厂商集群互联拓扑层级对比

NVIDIA：NVSwitch 全互联 + Fat-tree 集群

设计哲学

节点内拓扑：NVSwitch 全互联

节点间拓扑：Rail-Optimized Fat-tree

SHARP 网内计算

实测数据

典型集群

Google TPU：3D Torus 单拓扑到底

设计哲学

TPU 代际演进

TPU v4 深度分析

Trillium v6e 回退 2D 的原因

与 NVIDIA 方案对比

Meta：RoCE 以太网 Fat-tree

设计哲学

网络架构

RoCE vs InfiniBand 的工程权衡

典型集群

AMD：封装内环形 + Dragonfly 集群

MI300X 封装内拓扑

跨封装互联

集群级拓扑

Intel Gaudi：统一 RoCEv2 拓扑

设计哲学

Gaudi3 架构

统一协议的权衡

华为昇腾：HCCS 全互联 + UB-Mesh

设计哲学演进

Ascend 910C UB 端口规格

CloudMatrix 384 物理架构

UB-Mesh 分层架构（8K+ NPU）

推理性能基准

与 NVIDIA NVL72 的对比

厂商拓扑决策总结

参考文献

厂商文档

论文