交换机建模技术文档
文档信息
- 版本: v3.0
- 更新日期: 2026-02-08
- 目标: 为 Tier6 仿真系统提供 cycle 级精确的网络交换机建模方案
- 适用场景: 大模型训练/推理部署中的数据中心交换机
文档结构
本文档集整合了交换机建模的全部技术资料,分为以下部分:
| 文档 | 内容 | 适用读者 |
|---|---|---|
| 01-fundamentals.md | 交换机基础架构与微架构 | 需要了解交换机原理的开发者 |
| 02-ai-networking.md | AI 场景网络需求与协议 | 需要了解 RDMA/PFC/ECN 等 AI 网络特性的开发者 |
| 03-cycle-accurate-design.md | Cycle 级精确建模设计方案 | 实现交换机仿真模块的开发者 |
| 04-existing-frameworks.md | 现有仿真框架深度分析 | 需要参考或集成外部框架的开发者 |
核心设计理念
为什么需要 Cycle 级精确建模
当前 Tier6 仿真系统使用静态延迟参数 (latency_us) 建模交换机行为,无法捕获以下关键动态效应:
- 状态依赖延迟: 交换机延迟是状态函数 -- 零负载 ~250ns,incast 下 5-50us,PFC 触发时 100us+
- VOQ 排队竞争: 多个输入端口竞争同一输出端口时的仲裁延迟
- 共享缓冲池动态: 动态阈值算法下的缓冲分配与溢出行为
- PFC/ECN 反压传播: 拥塞信号在多跳网络中的级联效应
- 集合通信 Incast: AllReduce/AllToAll 产生的周期性突发流量对交换机的冲击
建模精度层次
Level 4: 静态延迟公式 (当前 Tier6 使用) ~1ns 精度
Level 3: 排队论近似模型 (M/M/1, M/D/1) ~100ns 精度
Level 2: Cycle 级状态机 (目标方案) ~10ns 精度
Level 1: RTL 仿真 (Verilog) ~1ns 精度
目标方案选择 Level 2,在精度和仿真速度间取得平衡。
与现有拓扑层级的关系
Pod (集群)
|
+-- Rack 0 <-----------> 汇聚交换机 (Aggregation Switch)
| +-- Board 0 <-------> ToR 交换机 (Top-of-Rack Switch)
| | +-- Chip 0 <---> NVLink/PCIe (直连, 现有模型)
| | +-- Chip 1
| | +-- ...
| +-- Board 1
| +-- ...
+-- Rack 1
+-- ...
- 芯片间 (c2c): 保持 NVLink/PCIe 直连模型
- Board 间 (b2b): 可选直连或通过 ToR 交换机 (新增)
- Rack 间 (r2r): 通过汇聚交换机 (新增)
- Pod 间 (p2p): 通过核心交换机 (未来扩展)
快速参考
典型交换机规格
| 类型 | 端口数 | 端口速率 | 背板带宽 | 缓冲深度 | 零负载延迟 |
|---|---|---|---|---|---|
| ToR (Tomahawk 5) | 32-64 | 400-800G | 25.6-51.2 Tbps | 32-64 MB | 300-500 ns |
| 汇聚 (Spectrum-4) | 64-128 | 400-800G | 51.2-102.4 Tbps | 64-128 MB | 500ns-1.5us |
| AI 优化 (Jericho3-AI) | 36-144 | 800G | 115.2 Tbps | 128-256 MB (HBM) | 1-3 us |
关键性能指标
| 指标 | AI 网络目标 |
|---|---|
| 丢包率 | < 10^-12 (基本为零) |
| ToR 延迟 (P50) | < 1 us |
| 端到端延迟 (P99) | < 10 us |
| PFC 触发率 | < 5% |
| ECN 标记率 | 5-15% (主动拥塞控制) |