NVL72 NVLink 域拓扑

NVL72 全连接域

关联：总览.md — 名词定义与评估指标体系 | 厂商部署.md — NVIDIA 完整方案

基本结构

GB200 NVL72 是 NVIDIA Blackwell 架构的关键突破——将 NVSwitch 全互联域从 DGX H100 的 8 GPU 扩展到 72 GPU，整个机架构成一个单一的全互联域。

物理构成（1 个标准机架）：

NVL72 机架
├── 18 个 Compute Tray（计算托盘）
│   └── 每个 Tray: 4 颗 B200 GPU (= 2 颗 Grace-Blackwell Superchip)
│       共 72 颗 B200 GPU
└── 9 个 NVLink Switch Tray（交换托盘）
    └── 每个 Tray: 2 颗 NVSwitch 4.0
        共 18 颗 NVSwitch 4.0

每颗 B200 GPU 通过 18 条 NVLink 5.0 链路连接到 18 颗 NVSwitch 4.0（每颗 NVSwitch 连接 1 条），由 NVSwitch 在内部完成全交叉交换。逻辑上，任意两颗 GPU 之间可以通过任意 NVSwitch 进行 1 跳通信，实现真正的全互联语义。

关键参数

参数	值
GPU 数	72（36 Grace-Blackwell Superchip，每个含 2 颗 B200）
NVSwitch 数	18（NVSwitch 4.0，每颗 72 个 NVLink 端口）
每 GPU NVLink 链路数	18（NVLink 5.0）
每条 NVLink 5.0 带宽	200 GB/s（双向，单向 100 GB/s）
每 GPU NVLink 带宽	1,800 GB/s（单向聚合：18 × 100 GB/s；双向 3,600 GB/s）
全域 AllReduce 聚合带宽	~260 TB/s
网络直径	2 跳（GPU -> NVSwitch -> GPU）
割集带宽	$\frac{72}{2} \times 1800 \text{ GB/s} = 64.8 \text{ TB/s}$

为什么是 72 而非 64 或 128：

72 = 36 Superchip × 2 GPUs，受 Grace-Blackwell Superchip 的 D2D 链路和机架物理空间限制
NVSwitch 4.0 有 72 个 NVLink 端口（相比 3.0 的 64 端口增加 12.5%），18 颗提供 1296 端口，恰好连接 72 GPU × 18 links/GPU
128 GPU 需要更多 NVSwitch，功耗和散热超出单 rack 承受能力

来源：NVIDIA GB200 NVL72

通信性能特性

AllReduce

Full Mesh 语义下，Recursive Halving-Doubling 是最优 AllReduce 算法：

$T_{\text{AllReduce}} = 2\lceil \log_2 72 \rceil \cdot \alpha + \frac{2(72-1)}{72} \cdot \frac{M}{\beta}$

延迟项：$\alpha$ 为 NVSwitch 交换延迟，实测 <300 ns
带宽项：$\beta = 1,800$ GB/s/GPU，AllReduce bus bandwidth 实测 ~839 GB/s（来源：CoreWeave nccl-tests）

AllGather

实测 AllGather bus bandwidth ~1,600 GB/s（来源：CoreWeave nccl-tests）。AllGather 无需 Reduce 操作，带宽利用率更高。

AllToAll

72 GPU 全互联域内，AllToAll 是单跳操作（通过 NVSwitch），理论效率接近 100%。实际受限于每 GPU 18 条 NVLink 链路的并发注入带宽。

与 DGX H100 的对比

指标	DGX H100	GB200 NVL72
全互联域规模	8 GPU	72 GPU
每 GPU 双向带宽	900 GB/s	1,800 GB/s
NVSwitch 代	3.0（64 端口）	4.0（72 端口）
带宽断崖（vs 网络）	18:1	36:1
AllReduce 延迟（1 GB）	基准	更低（带宽 2x）

适用场景

NVL72 全互联域最适合：

大 TP 组：单个 NVL72 可容纳 TP=72 的并行策略，无需跨越带宽断崖
超大单体模型：模型参数量超过单 GPU 内存时，在 72 GPU 全互联域内做张量并行，激活层和权重的通信均在高速 NVLink 上完成
MoE 模型节点内 EP：在 72 GPU 内部分配 Expert，AllToAll 通过 NVSwitch 单跳完成
混合精度推理：高频小消息通信在全互联域内零争用完成

局限性

带宽断崖 36:1：NVL72 域内 1,800 GB/s vs 对外 InfiniBand 网络 ~50 GB/s（400Gbps）。跨 NVL72 的通信带宽骤降 36 倍，并行策略映射必须严格约束 TP 在 NVL72 内部
规模固定为 72：无法灵活配置（不像 Torus 可以调整维度）。72 是由硬件约束决定的固定值
成本极高：NVSwitch 4.0 芯片、18 条 NVLink/GPU 的 SerDes 资源，整体系统成本远高于普通 PCIe GPU 服务器
功耗与散热：72 GPU + 18 NVSwitch 在单 rack 内，功耗超过 100 kW，需要液冷
对外依赖 InfiniBand：NVL72 本身没有跨 rack 的互联能力，需要配合 IB 网络（额外成本）

与华为 CloudMatrix 384 的对比

指标	NVIDIA GB200 NVL72	华为 CloudMatrix 384
加速器数	72 GPU	384 NPU
每芯片互联带宽	14.4 Tbps（= 1.8 TB/s）	2.8 Tbps
全互联域规模	72 GPU	384 NPU（L1/L2 两级交换，非物理直连）
互联介质	电气 NVLink + 光 NVSwitch 背板	全光（400G LPO）
交换架构	单级 NVSwitch（18 颗）	L1/L2 两级 UB 交换
系统 BF16 算力	180 PFLOPS	300 PFLOPS
机架数	1	16

关键差异：NVIDIA 以更高的单芯片带宽（5× UB）换取单机架集成；华为以更大的全互联域规模（5.3× GPU 数量）和全光互联换取跨机架扩展能力。两者代表"带宽密度 vs 规模"的不同工程权衡。

需要注意：CloudMatrix 384 的"全互联域"是通过 L1/L2 两级交换实现的逻辑全互联，跨节点延迟增加 <1 μs，带宽衰减 <3%——并非物理直连全互联。

来源：SemiAnalysis CloudMatrix 384、UB-Mesh arxiv 2503.20377

在大模型集群中的实际应用

NVL72 作为单 rack 全互联域，与集群级 InfiniBand Fat-tree 配合使用：

集群	规模	NVL72 数	节点间网络
CoreWeave（首批）	1,440 B200	20 个 NVL72	IB XDR + SHARP

集群级拓扑：多个 NVL72 通过 InfiniBand XDR（800 Gbps）互联，组成更大的 Fat-tree 集群。每个 NVL72 是集群的"超节点"，内部全互联，对外单个 IB 上行链路。

并行策略映射：

TP（张量并行）：在单 NVL72 内，带宽 1,800 GB/s，TP 组大小可达 72
PP（流水线并行）：跨 NVL72，通过 IB 400Gbps 通信，需要 micro-batch 流水线掩盖延迟
DP（数据并行）：跨 NVL72，每步 DP AllReduce 通过 IB 完成
EP（专家并行）：理想情况是 EP 组在 NVL72 内完成；跨 NVL72 的 EP 需要走 IB，带宽骤降

来源：NVIDIA GB200 NVL72、CoreWeave nccl-tests

参考资料

资料	关键内容
NVIDIA GB200 NVL72 官方页面	72 GPU NVLink 5.0 域规格
NVIDIA Developer Blog, NVL72 OCP	NVL72 NVLink 域拓扑（官方图）
CoreWeave nccl-tests	NVL72 AllReduce/AllGather 实测数据
SemiAnalysis CloudMatrix 384	NVL72 vs CloudMatrix 384 深度对比
arxiv 2506.12708	CloudMatrix 384 LLM 推理基准

基本结构​

关键参数​

通信性能特性​

AllReduce​

AllGather​

AllToAll​

与 DGX H100 的对比​

适用场景​

局限性​

与华为 CloudMatrix 384 的对比​

在大模型集群中的实际应用​

参考资料​