跳到主要内容

路由策略选型指南

本文汇总各路由策略的适用场景和性能特性矩阵,结合拓扑类型给出选型建议。

策略性能矩阵

策略有效带宽利用率延迟可预测性报文有序性硬件要求适用拓扑
ECMP60-70%(AI 负载)保证(流级别)通用 ASICFat-tree、Clos
E-ECMP + QP Scaling80-90%保证支持 UDF 的 ASICFat-tree、Clos
WCMP85-90%保证通用 ASIC + SDNFat-tree(含故障链路)
自适应路由(AR)per-flowlet85-92%基本保证专用 AR ASICFat-tree、IB
自适应路由(AR)per-packet88-95%不保证专用 AR ASIC + 重排序Fat-tree、IB
DOR85-92%最高(确定性)保证通用(维度感知)Torus、Mesh
UGAL85-93%保证支持队列深度读取Dragonfly
Packet Spraying(UEC 1.0)90-97%低(乱序)不保证新一代 NIC + 重排序缓冲Fat-tree
SRv6 源路由90-97%(理论最优路径)最高(编译时确定)保证SDN 控制器 + SRv6 NIC任意
TE-CCL / MCF接近 100%(理论)高(离线计算)保证中央控制器Fat-tree、Dragonfly

按拓扑类型的选型建议

Fat-tree / Clos(数据中心主流拓扑)

Fat-tree 拥有丰富的等价路径,路由策略的选择空间最大。

场景推荐策略
通用互联网/混合流量ECMP
AI 训练集群(AllReduce 为主)E-ECMP + QP Scaling
含故障链路或非对称拓扑WCMP
需要高实时性的拥塞响应自适应路由(AR)per-flowlet
极致带宽利用率(含 UEC NIC)Packet Spraying
确定性路径 + 全局最优SRv6(需 SDN 基础设施)
离线批量调度TE-CCL / MCF

典型案例

  • Meta 24K GPU 集群:E-ECMP + QP Scaling(SIGCOMM 2024)
  • Meta Llama4 训练(100K GPU):分层算法 + DQPLB
  • Microsoft Azure Fairwater DC:SRv6 生产部署

Torus / Mesh(Google TPU 系列)

Torus 拓扑的规则结构使 DOR 成为首选,路径多样性低但确定性强。

场景推荐策略
标准 3D Torus + AllReduceDOR + 维度分解集合通信
需要提升 bisection bandwidthOCS 重配 Twisted Torus + DOR
工作负载不与维度对齐有限的 ECMP(仅同维度内多路径)

典型案例

  • Google TPU v4/v5/v6/Ironwood:3D Torus + DOR + OCS(ISCA 2023)
  • XLA 编译器在编译时将 TP/DP/PP 分配到对应 Torus 维度,路由静态确定

Dragonfly(HPC 超算)

Dragonfly 的稀疏全局链路是瓶颈,需要 UGAL 的动态切换来平衡最短路和绕路。

场景推荐策略
标准工作负载UGAL(Minimal + Valiant 混合)
高强度 AllToAll(MoE)UGAL,配合全局链路容量规划
全局 AllReduce分层通信(限制在组内),全局链路只传规约结果
研究/探索Q-adaptive(强化学习路由)

典型案例

  • HPE Slingshot(Frontier 超算):UGAL
  • Dragonfly 在大规模 LLM 训练中受全局链路限制,行业正在评估 Fat-tree 替代方案

节点内 NVLink 和节点间 IB 是两个完全独立的网络域,路由策略分层处理。

层级推荐策略
NVLink 域内(8/72 GPU)NVSwitch 全互联,无需路由选择
InfiniBand 域间硬件 AR(per-flowlet)+ SHARP 网内规约
算法选择TP 完全在 NVLink 域内,PP/DP 走 IB

决策流程

是否有明确的拓扑类型?
├── Torus/Mesh → DOR(+ OCS 优化)
├── Dragonfly → UGAL
└── Fat-tree/Clos → 继续判断

是否已有 UEC 1.0 NIC?
├── 是 → Packet Spraying(极致带宽)
└── 否 → 继续判断

是否有 SDN 基础设施(SRv6 控制器)?
├── 是 → SRv6(确定性路径)
└── 否 → 继续判断

是否有 AR ASIC(Quantum/Spectrum/Tomahawk4+)?
├── 是 → 自适应路由(per-flowlet)
└── 否 → 继续判断

AI 工作负载(大流、低熵)?
├── 是 → E-ECMP + QP Scaling
└── 否(通用流量) → 标准 ECMP

带宽利用率与延迟的权衡

所有路由策略都在以下两个维度间做取舍:

带宽利用率:从 ECMP(60-70%)到 Packet Spraying/TE-CCL(接近 100%)递增,但随之而来的是更高的系统复杂度、硬件要求和不确定性。

延迟可预测性:DOR 和 SRv6 提供最高确定性(路径在部署/编译时固定),AR 和 Packet Spraying 的延迟受实时网络状态影响,尾延迟较高。

AI 推理场景(对尾延迟敏感)倾向于确定性路由;AI 训练场景(对吞吐量敏感)倾向于高带宽利用率策略。

参考资料