06. 建模参数与仿真指导
本文汇总 SG2262 C2C 子系统的建模参数,分析通信瓶颈,并给出 G5 仿真器与 Math 模型的参数映射和增强方向。
来源标记约定:
[DOC]= SG2262 C2C 方案设计文档[PPT]= 2262 C2C feature PPT[推导]= 基于原始参数推算,附计算过程
通信性能关键参数汇总
C2C Link 带宽
SG2262 每颗芯片配置 8 组 x4 SerDes Link,支持三种速率档位 [DOC]:
| 参数 | 56G 配置 | 112G 配置 | 224G 配置 | 来源 |
|---|---|---|---|---|
| 单 lane 速率 | 56 Gbps | 112 Gbps | 224 Gbps | [DOC] |
| 单 Chip C2C 总带宽 | 224 GB/s | 448 GB/s | 896 GB/s | [推导] 8 x4 x 速率 / 8 |
224G 配置说明:当 SerDes 速率与交换机不匹配时,需要 gearbox 芯片桥接(通常使用带 gearbox 的 AEC/光模块)。
[DOC]
CDMA 引擎参数
| 参数 | 值 | 来源 |
|---|---|---|
| CDMA 数量 / Die | 4 | [DOC] |
| CDMA 位宽 | 512 bit | [PPT] |
| 单 CDMA 带宽上限 | 64 GB/s | [DOC] |
| CDMA 总带宽 / Die | 256 GB/s | [推导] 4 x 64 GB/s |
| CDMA 总带宽 / Chip (双 Die) | 512 GB/s | [推导] 8 x 64 GB/s |
| Thread 数 / CDMA | 8 | [推导] 参考 32 Thread/Die / 4 CDMA |
| CDMA Thread 总数 / Die | 32 | [推导] 4 CDMA x 8 Thread |
| tcredit 队列深度 | 32 / CDMA | [DOC] |
| tcredit tracker 匹配 | chipid + cdmaid 寄存器 | [PPT] |
| 一次通信最大指令数 | 30 | [DOC] |
报文与协议参数
| 参数 | 值 | 来源 |
|---|---|---|
| AXI 报文大小 | 256B / 512B | [DOC] |
| MAC MTU | 1.5 KB | [DOC] |
| AXI boundary | 4 KB | [DOC] |
| 保序窗口最大数 | 32 (含 OSTD) | [DOC] |
| Bresp merge | CAM 结构, 同 dst_macid 合并 | [DOC] |
| Datagram Buffer 深度 | 32 x 128B = 4 KB | [DOC] |
PAXI 协议参数
| 参数 | 值 | 来源 |
|---|---|---|
| PAXI 有效带宽 (112G) | ~431.9 GB/s | [推导] 448 x 1344 / (1344 + 50) |
| PAXI OST 上限 | 512 (TYPE1) | [DOC] |
| PAXI VC 数 | 8 | [DOC] |
| PAXI CBFC credit | 可配 (32-2048B) | [DOC] |
寻址与规模参数
| 参数 | 值 | 来源 |
|---|---|---|
| MAC ID 最大长度 | 10 bit | [DOC] |
| VMACID 映射 | 最多 1024 PMACID -> VMACID | [DOC] |
| 最大芯片数 | 1024 | [DOC] |
| L1 cluster 最大芯片数 | 32 | [DOC] |
瓶颈分析
数据路径
完整的跨芯片数据搬运路径:
本地 LMEM -> CDMA -> NoC -> C2C MAC -> SerDes -> [交换机] -> SerDes -> C2C MAC -> NoC -> 远端 LMEM
瓶颈候选
| 瓶颈环节 | 带宽 | 约束条件 |
|---|---|---|
| 单 CDMA datapath | 64 GB/s | 8 个 Thread 共享,arbiter 仲裁引入开销 [DOC] |
| 单 Die CDMA 总带宽 | 256 GB/s | 4 个 CDMA 并行 [推导] |
| 双 Die CDMA 总带宽 | 512 GB/s | 2 x 4 CDMA 并行 [推导] |
| C2C Link (112G) | 448 GB/s | 8 组 x4 SerDes [DOC] |
| 交换机 | 取决于端口带宽和拥塞 | 多对多通信时可能成为瓶颈 |
关键结论
单 Die 场景:CDMA 总带宽 256 GB/s < C2C Link 448 GB/s,CDMA 是瓶颈。C2C Link 带宽无法被充分利用,多出的 192 GB/s 带宽空闲。[推导]
双 Die 协同场景:CDMA 总带宽 512 GB/s > C2C Link 448 GB/s,C2C Link 是瓶颈。两个 Die 的 CDMA 引擎可以饱和 C2C Link,此时有效带宽受限于物理链路。[推导]
交换机场景:当多芯片通过交换机互联时,交换机的端口带宽和内部交换容量可能成为额外瓶颈。具体取决于交换机规格和流量模式。
L1 拓扑对有效带宽的影响
L1 cluster 内的拓扑结构决定了 8 组 C2C Link 如何分配给邻居芯片,直接影响点对点有效带宽和集合通信效率。以 8 芯片、112G SerDes (单 x4 Link = 56 GB/s) 为例 [推导]:
| L1 拓扑 | 端口分配 | 点对点有效带宽 | AllReduce 带宽利用率 | 说明 |
|---|---|---|---|---|
| all2all | 每对芯片 1 port | 56 GB/s | ~100% | 任意两芯片直连,路由最短;8 芯片恰好用完 8 port (含自身不连) [推导] |
| ring | 邻居各 1 port | 56 GB/s | ~87.5% | Ring AllReduce 需 N-1 步,利用率 = (N-1)/N [推导] |
| torus | 邻居各 2 port | 112 GB/s | ~Ring | 比 ring 增加跨维链路,邻居带宽翻倍,但 AllReduce 利用率相近 [推导] |
| cube | 邻居各 1 port | 56 GB/s | 取决于路由 | 3D cube 邻居 3 个,非邻居需多跳,利用率受路由算法影响 [推导] |
| clos (交换机) | 取决于交换机 | 取决于交换机 | 取决于算法 | 通过交换机中转,带宽受交换机端口和超额比限制 |
[推导] Math 模型当前使用单一 bandwidth_gbps 参数,无法区分上述拓扑差异。对于 ring/torus 等非全连接拓扑,实际可用带宽可能显著低于物理链路带宽。
注: 建模参数对照表、Math 模型增强建议、G5 仿真器建模分层方案等实现规划内容已迁移至 g5-simulator-design/09-c2c-modeling-plan.md。