路由策略选型指南

本文汇总各路由策略的适用场景和性能特性矩阵，结合拓扑类型给出选型建议。

策略性能矩阵

策略	有效带宽利用率	延迟可预测性	报文有序性	硬件要求	适用拓扑
ECMP	60-70%（AI 负载）	高	保证（流级别）	通用 ASIC	Fat-tree、Clos
E-ECMP + QP Scaling	80-90%	高	保证	支持 UDF 的 ASIC	Fat-tree、Clos
WCMP	85-90%	高	保证	通用 ASIC + SDN	Fat-tree（含故障链路）
自适应路由（AR）per-flowlet	85-92%	中	基本保证	专用 AR ASIC	Fat-tree、IB
自适应路由（AR）per-packet	88-95%	中	不保证	专用 AR ASIC + 重排序	Fat-tree、IB
DOR	85-92%	最高（确定性）	保证	通用（维度感知）	Torus、Mesh
UGAL	85-93%	中	保证	支持队列深度读取	Dragonfly
Packet Spraying（UEC 1.0）	90-97%	低（乱序）	不保证	新一代 NIC + 重排序缓冲	Fat-tree
SRv6 源路由	90-97%（理论最优路径）	最高（编译时确定）	保证	SDN 控制器 + SRv6 NIC	任意
TE-CCL / MCF	接近 100%（理论）	高（离线计算）	保证	中央控制器	Fat-tree、Dragonfly

按拓扑类型的选型建议

Fat-tree / Clos（数据中心主流拓扑）

Fat-tree 拥有丰富的等价路径，路由策略的选择空间最大。

场景	推荐策略
通用互联网/混合流量	ECMP
AI 训练集群（AllReduce 为主）	E-ECMP + QP Scaling
含故障链路或非对称拓扑	WCMP
需要高实时性的拥塞响应	自适应路由（AR）per-flowlet
极致带宽利用率（含 UEC NIC）	Packet Spraying
确定性路径 + 全局最优	SRv6（需 SDN 基础设施）
离线批量调度	TE-CCL / MCF

典型案例：

Meta 24K GPU 集群：E-ECMP + QP Scaling（SIGCOMM 2024）
Meta Llama4 训练（100K GPU）：分层算法 + DQPLB
Microsoft Azure Fairwater DC：SRv6 生产部署

Torus / Mesh（Google TPU 系列）

Torus 拓扑的规则结构使 DOR 成为首选，路径多样性低但确定性强。

场景	推荐策略
标准 3D Torus + AllReduce	DOR + 维度分解集合通信
需要提升 bisection bandwidth	OCS 重配 Twisted Torus + DOR
工作负载不与维度对齐	有限的 ECMP（仅同维度内多路径）

典型案例：

Google TPU v4/v5/v6/Ironwood：3D Torus + DOR + OCS（ISCA 2023）
XLA 编译器在编译时将 TP/DP/PP 分配到对应 Torus 维度，路由静态确定

Dragonfly（HPC 超算）

Dragonfly 的稀疏全局链路是瓶颈，需要 UGAL 的动态切换来平衡最短路和绕路。

场景	推荐策略
标准工作负载	UGAL（Minimal + Valiant 混合）
高强度 AllToAll（MoE）	UGAL，配合全局链路容量规划
全局 AllReduce	分层通信（限制在组内），全局链路只传规约结果
研究/探索	Q-adaptive（强化学习路由）

典型案例：

HPE Slingshot（Frontier 超算）：UGAL
Dragonfly 在大规模 LLM 训练中受全局链路限制，行业正在评估 Fat-tree 替代方案

Rail-Optimized（NVLink + InfiniBand 双网络）

节点内 NVLink 和节点间 IB 是两个完全独立的网络域，路由策略分层处理。

层级	推荐策略
NVLink 域内（8/72 GPU）	NVSwitch 全互联，无需路由选择
InfiniBand 域间	硬件 AR（per-flowlet）+ SHARP 网内规约
算法选择	TP 完全在 NVLink 域内，PP/DP 走 IB

决策流程

是否有明确的拓扑类型？
  ├── Torus/Mesh → DOR（+ OCS 优化）
  ├── Dragonfly → UGAL
  └── Fat-tree/Clos → 继续判断
        ↓
是否已有 UEC 1.0 NIC？
  ├── 是 → Packet Spraying（极致带宽）
  └── 否 → 继续判断
        ↓
是否有 SDN 基础设施（SRv6 控制器）？
  ├── 是 → SRv6（确定性路径）
  └── 否 → 继续判断
        ↓
是否有 AR ASIC（Quantum/Spectrum/Tomahawk4+）？
  ├── 是 → 自适应路由（per-flowlet）
  └── 否 → 继续判断
        ↓
AI 工作负载（大流、低熵）？
  ├── 是 → E-ECMP + QP Scaling
  └── 否（通用流量） → 标准 ECMP

带宽利用率与延迟的权衡

所有路由策略都在以下两个维度间做取舍：

带宽利用率：从 ECMP（60-70%）到 Packet Spraying/TE-CCL（接近 100%）递增，但随之而来的是更高的系统复杂度、硬件要求和不确定性。

延迟可预测性：DOR 和 SRv6 提供最高确定性（路径在部署/编译时固定），AR 和 Packet Spraying 的延迟受实时网络状态影响，尾延迟较高。

AI 推理场景（对尾延迟敏感）倾向于确定性路由；AI 训练场景（对吞吐量敏感）倾向于高带宽利用率策略。

参考资料

RDMA over Ethernet for Distributed AI Training at Meta Scale（SIGCOMM 2024）
Rethinking ML Collective Communication as MCF (TE-CCL)（SIGCOMM 2024）
TPU v4: An Optically Reconfigurable Supercomputer（ISCA 2023）
Collective Communication for 100k+ GPUs (NCCLX)（arxiv 2510.20171）

策略性能矩阵​

按拓扑类型的选型建议​

Fat-tree / Clos（数据中心主流拓扑）​

Torus / Mesh（Google TPU 系列）​

Dragonfly（HPC 超算）​

Rail-Optimized（NVLink + InfiniBand 双网络）​

决策流程​

带宽利用率与延迟的权衡​

参考资料​

策略性能矩阵

按拓扑类型的选型建议

Fat-tree / Clos（数据中心主流拓扑）

Torus / Mesh（Google TPU 系列）

Dragonfly（HPC 超算）

Rail-Optimized（NVLink + InfiniBand 双网络）

决策流程

带宽利用率与延迟的权衡

参考资料