路由策略选型指南
本文汇总各路由策略的适用场景和性能特性矩阵,结合拓扑类型给出选型建议。
策略性能矩阵
| 策略 | 有效带宽利用率 | 延迟可预测性 | 报文有序性 | 硬件要求 | 适用拓扑 |
|---|---|---|---|---|---|
| ECMP | 60-70%(AI 负载) | 高 | 保证(流级别) | 通用 ASIC | Fat-tree、Clos |
| E-ECMP + QP Scaling | 80-90% | 高 | 保证 | 支持 UDF 的 ASIC | Fat-tree、Clos |
| WCMP | 85-90% | 高 | 保证 | 通用 ASIC + SDN | Fat-tree(含故障链路) |
| 自适应路由(AR)per-flowlet | 85-92% | 中 | 基本保证 | 专用 AR ASIC | Fat-tree、IB |
| 自适应路由(AR)per-packet | 88-95% | 中 | 不保证 | 专用 AR ASIC + 重排序 | Fat-tree、IB |
| DOR | 85-92% | 最高(确定性) | 保证 | 通用(维度感知) | Torus、Mesh |
| UGAL | 85-93% | 中 | 保证 | 支持队列深度读取 | Dragonfly |
| Packet Spraying(UEC 1.0) | 90-97% | 低(乱序) | 不保证 | 新一代 NIC + 重排序缓冲 | Fat-tree |
| SRv6 源路由 | 90-97%(理论最优路径) | 最高(编译时确定) | 保证 | SDN 控制器 + SRv6 NIC | 任意 |
| TE-CCL / MCF | 接近 100%(理论) | 高(离线计算) | 保证 | 中央控制器 | Fat-tree、Dragonfly |
按拓扑类型的选型建议
Fat-tree / Clos(数据中心主流拓扑)
Fat-tree 拥有丰富的等价路径,路由策略的选择空间最大。
| 场景 | 推荐策略 |
|---|---|
| 通用互联网/混合流量 | ECMP |
| AI 训练集群(AllReduce 为主) | E-ECMP + QP Scaling |
| 含故障链路或非对称拓扑 | WCMP |
| 需要高实时性的拥塞响应 | 自适应路由(AR)per-flowlet |
| 极致带宽利用率(含 UEC NIC) | Packet Spraying |
| 确定性路径 + 全局最优 | SRv6(需 SDN 基础设施) |
| 离线批量调度 | TE-CCL / MCF |
典型案例:
- Meta 24K GPU 集群:E-ECMP + QP Scaling(SIGCOMM 2024)
- Meta Llama4 训练(100K GPU):分层算法 + DQPLB
- Microsoft Azure Fairwater DC:SRv6 生产部署
Torus / Mesh(Google TPU 系列)
Torus 拓扑的规则结构使 DOR 成为首选,路径多样性低但确定性强。
| 场景 | 推荐策略 |
|---|---|
| 标准 3D Torus + AllReduce | DOR + 维度分解集合通信 |
| 需要提升 bisection bandwidth | OCS 重配 Twisted Torus + DOR |
| 工作负载不与维度对齐 | 有限的 ECMP(仅同维度内多路径) |
典型案例:
- Google TPU v4/v5/v6/Ironwood:3D Torus + DOR + OCS(ISCA 2023)
- XLA 编译器在编译时将 TP/DP/PP 分配到对应 Torus 维度,路由静态确定
Dragonfly(HPC 超算)
Dragonfly 的稀疏全局链路是瓶颈,需要 UGAL 的动态切换来平衡最短路和绕路。
| 场景 | 推荐策略 |
|---|---|
| 标准工作负载 | UGAL(Minimal + Valiant 混合) |
| 高强度 AllToAll(MoE) | UGAL,配合全局链路容量规划 |
| 全局 AllReduce | 分层通信(限制在组内),全局链路只传规约结果 |
| 研究/探索 | Q-adaptive(强化学习路由) |
典型案例:
- HPE Slingshot(Frontier 超算):UGAL
- Dragonfly 在大规模 LLM 训练中受全局链路限制,行业正在评估 Fat-tree 替代方案
Rail-Optimized(NVLink + InfiniBand 双网络)
节点内 NVLink 和节点间 IB 是两个完全独立的网络域,路由策略分层处理。
| 层级 | 推荐策略 |
|---|---|
| NVLink 域内(8/72 GPU) | NVSwitch 全互联,无需路由选择 |
| InfiniBand 域间 | 硬件 AR(per-flowlet)+ SHARP 网内规约 |
| 算法选择 | TP 完全在 NVLink 域内,PP/DP 走 IB |
决策流程
是否有明确的拓扑类型?
├── Torus/Mesh → DOR(+ OCS 优化)
├── Dragonfly → UGAL
└── Fat-tree/Clos → 继续判断
↓
是否已有 UEC 1.0 NIC?
├── 是 → Packet Spraying(极致带宽)
└── 否 → 继续判断
↓
是否有 SDN 基础设施(SRv6 控制器)?
├── 是 → SRv6(确定性路径)
└── 否 → 继续判断
↓
是否有 AR ASIC(Quantum/Spectrum/Tomahawk4+)?
├── 是 → 自适应路由(per-flowlet)
└── 否 → 继续判断
↓
AI 工作负载(大流、低熵)?
├── 是 → E-ECMP + QP Scaling
└── 否(通用流量) → 标准 ECMP
带宽利用率与延迟的权衡
所有路由策略都在以下两个维度间做取舍:
带宽利用率:从 ECMP(60-70%)到 Packet Spraying/TE-CCL(接近 100%)递增,但随之而来的是更高的系统复杂度、硬件要求和不确定性。
延迟可预测性:DOR 和 SRv6 提供最高确定性(路径在部署/编译时固定),AR 和 Packet Spraying 的延迟受实时网络状态影响,尾延迟较高。
AI 推理场景(对尾延迟敏感)倾向于确定性路由;AI 训练场景(对吞吐量敏感)倾向于高带宽利用率策略。
参考资料
- RDMA over Ethernet for Distributed AI Training at Meta Scale(SIGCOMM 2024)
- Rethinking ML Collective Communication as MCF (TE-CCL)(SIGCOMM 2024)
- TPU v4: An Optically Reconfigurable Supercomputer(ISCA 2023)
- Collective Communication for 100k+ GPUs (NCCLX)(arxiv 2510.20171)