交换机建模技术文档

文档信息

版本: v3.0
更新日期: 2026-02-08
目标: 为 Tier6 仿真系统提供 cycle 级精确的网络交换机建模方案
适用场景: 大模型训练/推理部署中的数据中心交换机

文档结构

本文档集整合了交换机建模的全部技术资料，分为以下部分:

文档	内容	适用读者
01-fundamentals.md	交换机基础架构与微架构	需要了解交换机原理的开发者
02-ai-networking.md	AI 场景网络需求与协议	需要了解 RDMA/PFC/ECN 等 AI 网络特性的开发者
03-cycle-accurate-design.md	Cycle 级精确建模设计方案	实现交换机仿真模块的开发者
04-existing-frameworks.md	现有仿真框架深度分析	需要参考或集成外部框架的开发者

核心设计理念

为什么需要 Cycle 级精确建模

当前 Tier6 仿真系统使用静态延迟参数 (latency_us) 建模交换机行为，无法捕获以下关键动态效应:

状态依赖延迟: 交换机延迟是状态函数 -- 零负载 ~250ns，incast 下 5-50us，PFC 触发时 100us+
VOQ 排队竞争: 多个输入端口竞争同一输出端口时的仲裁延迟
共享缓冲池动态: 动态阈值算法下的缓冲分配与溢出行为
PFC/ECN 反压传播: 拥塞信号在多跳网络中的级联效应
集合通信 Incast: AllReduce/AllToAll 产生的周期性突发流量对交换机的冲击

建模精度层次

Level 4: 静态延迟公式      (当前 Tier6 使用)    ~1ns 精度
Level 3: 排队论近似模型      (M/M/1, M/D/1)      ~100ns 精度
Level 2: Cycle 级状态机      (目标方案)           ~10ns 精度
Level 1: RTL 仿真           (Verilog)            ~1ns 精度

目标方案选择 Level 2，在精度和仿真速度间取得平衡。

与现有拓扑层级的关系

Pod (集群)
 |
 +-- Rack 0 <-----------> 汇聚交换机 (Aggregation Switch)
 |   +-- Board 0 <-------> ToR 交换机 (Top-of-Rack Switch)
 |   |   +-- Chip 0 <---> NVLink/PCIe (直连, 现有模型)
 |   |   +-- Chip 1
 |   |   +-- ...
 |   +-- Board 1
 |   +-- ...
 +-- Rack 1
 +-- ...

芯片间 (c2c): 保持 NVLink/PCIe 直连模型
Board 间 (b2b): 可选直连或通过 ToR 交换机 (新增)
Rack 间 (r2r): 通过汇聚交换机 (新增)
Pod 间 (p2p): 通过核心交换机 (未来扩展)

快速参考

典型交换机规格

类型	端口数	端口速率	背板带宽	缓冲深度	零负载延迟
ToR (Tomahawk 5)	32-64	400-800G	25.6-51.2 Tbps	32-64 MB	300-500 ns
汇聚 (Spectrum-4)	64-128	400-800G	51.2-102.4 Tbps	64-128 MB	500ns-1.5us
AI 优化 (Jericho3-AI)	36-144	800G	115.2 Tbps	128-256 MB (HBM)	1-3 us

关键性能指标

指标	AI 网络目标
丢包率	< 10^-12 (基本为零)
ToR 延迟 (P50)	< 1 us
端到端延迟 (P99)	< 10 us
PFC 触发率	< 5%
ECN 标记率	5-15% (主动拥塞控制)

文档信息​

文档结构​

核心设计理念​

为什么需要 Cycle 级精确建模​

建模精度层次​

与现有拓扑层级的关系​

快速参考​

典型交换机规格​

关键性能指标​

文档信息

文档结构

核心设计理念

为什么需要 Cycle 级精确建模

建模精度层次

与现有拓扑层级的关系

快速参考

典型交换机规格

关键性能指标