跳到主要内容

交换机建模技术文档

文档信息

  • 版本: v3.0
  • 更新日期: 2026-02-08
  • 目标: 为 Tier6 仿真系统提供 cycle 级精确的网络交换机建模方案
  • 适用场景: 大模型训练/推理部署中的数据中心交换机

文档结构

本文档集整合了交换机建模的全部技术资料,分为以下部分:

文档内容适用读者
01-fundamentals.md交换机基础架构与微架构需要了解交换机原理的开发者
02-ai-networking.mdAI 场景网络需求与协议需要了解 RDMA/PFC/ECN 等 AI 网络特性的开发者
03-cycle-accurate-design.mdCycle 级精确建模设计方案实现交换机仿真模块的开发者
04-existing-frameworks.md现有仿真框架深度分析需要参考或集成外部框架的开发者

核心设计理念

为什么需要 Cycle 级精确建模

当前 Tier6 仿真系统使用静态延迟参数 (latency_us) 建模交换机行为,无法捕获以下关键动态效应:

  1. 状态依赖延迟: 交换机延迟是状态函数 -- 零负载 ~250ns,incast 下 5-50us,PFC 触发时 100us+
  2. VOQ 排队竞争: 多个输入端口竞争同一输出端口时的仲裁延迟
  3. 共享缓冲池动态: 动态阈值算法下的缓冲分配与溢出行为
  4. PFC/ECN 反压传播: 拥塞信号在多跳网络中的级联效应
  5. 集合通信 Incast: AllReduce/AllToAll 产生的周期性突发流量对交换机的冲击

建模精度层次

Level 4: 静态延迟公式      (当前 Tier6 使用)    ~1ns 精度
Level 3: 排队论近似模型 (M/M/1, M/D/1) ~100ns 精度
Level 2: Cycle 级状态机 (目标方案) ~10ns 精度
Level 1: RTL 仿真 (Verilog) ~1ns 精度

目标方案选择 Level 2,在精度和仿真速度间取得平衡。

与现有拓扑层级的关系

Pod (集群)
|
+-- Rack 0 <-----------> 汇聚交换机 (Aggregation Switch)
| +-- Board 0 <-------> ToR 交换机 (Top-of-Rack Switch)
| | +-- Chip 0 <---> NVLink/PCIe (直连, 现有模型)
| | +-- Chip 1
| | +-- ...
| +-- Board 1
| +-- ...
+-- Rack 1
+-- ...
  • 芯片间 (c2c): 保持 NVLink/PCIe 直连模型
  • Board 间 (b2b): 可选直连或通过 ToR 交换机 (新增)
  • Rack 间 (r2r): 通过汇聚交换机 (新增)
  • Pod 间 (p2p): 通过核心交换机 (未来扩展)

快速参考

典型交换机规格

类型端口数端口速率背板带宽缓冲深度零负载延迟
ToR (Tomahawk 5)32-64400-800G25.6-51.2 Tbps32-64 MB300-500 ns
汇聚 (Spectrum-4)64-128400-800G51.2-102.4 Tbps64-128 MB500ns-1.5us
AI 优化 (Jericho3-AI)36-144800G115.2 Tbps128-256 MB (HBM)1-3 us

关键性能指标

指标AI 网络目标
丢包率< 10^-12 (基本为零)
ToR 延迟 (P50)< 1 us
端到端延迟 (P99)< 10 us
PFC 触发率< 5%
ECN 标记率5-15% (主动拥塞控制)