跳到主要内容

06. 建模参数与仿真指导

本文汇总 SG2262 C2C 子系统的建模参数,分析通信瓶颈,并给出 G5 仿真器与 Math 模型的参数映射和增强方向。

来源标记约定:

  • [DOC] = SG2262 C2C 方案设计文档
  • [PPT] = 2262 C2C feature PPT
  • [推导] = 基于原始参数推算,附计算过程

通信性能关键参数汇总

SG2262 每颗芯片配置 8 组 x4 SerDes Link,支持三种速率档位 [DOC]

参数56G 配置112G 配置224G 配置来源
单 lane 速率56 Gbps112 Gbps224 Gbps[DOC]
单 Chip C2C 总带宽224 GB/s448 GB/s896 GB/s[推导] 8 x4 x 速率 / 8

224G 配置说明:当 SerDes 速率与交换机不匹配时,需要 gearbox 芯片桥接(通常使用带 gearbox 的 AEC/光模块)。[DOC]

CDMA 引擎参数

参数来源
CDMA 数量 / Die4[DOC]
CDMA 位宽512 bit[PPT]
单 CDMA 带宽上限64 GB/s[DOC]
CDMA 总带宽 / Die256 GB/s[推导] 4 x 64 GB/s
CDMA 总带宽 / Chip (双 Die)512 GB/s[推导] 8 x 64 GB/s
Thread 数 / CDMA8[推导] 参考 32 Thread/Die / 4 CDMA
CDMA Thread 总数 / Die32[推导] 4 CDMA x 8 Thread
tcredit 队列深度32 / CDMA[DOC]
tcredit tracker 匹配chipid + cdmaid 寄存器[PPT]
一次通信最大指令数30[DOC]

报文与协议参数

参数来源
AXI 报文大小256B / 512B[DOC]
MAC MTU1.5 KB[DOC]
AXI boundary4 KB[DOC]
保序窗口最大数32 (含 OSTD)[DOC]
Bresp mergeCAM 结构, 同 dst_macid 合并[DOC]
Datagram Buffer 深度32 x 128B = 4 KB[DOC]

PAXI 协议参数

参数来源
PAXI 有效带宽 (112G)~431.9 GB/s[推导] 448 x 1344 / (1344 + 50)
PAXI OST 上限512 (TYPE1)[DOC]
PAXI VC 数8[DOC]
PAXI CBFC credit可配 (32-2048B)[DOC]

寻址与规模参数

参数来源
MAC ID 最大长度10 bit[DOC]
VMACID 映射最多 1024 PMACID -> VMACID[DOC]
最大芯片数1024[DOC]
L1 cluster 最大芯片数32[DOC]

瓶颈分析

数据路径

完整的跨芯片数据搬运路径:

本地 LMEM -> CDMA -> NoC -> C2C MAC -> SerDes -> [交换机] -> SerDes -> C2C MAC -> NoC -> 远端 LMEM

瓶颈候选

瓶颈环节带宽约束条件
单 CDMA datapath64 GB/s8 个 Thread 共享,arbiter 仲裁引入开销 [DOC]
单 Die CDMA 总带宽256 GB/s4 个 CDMA 并行 [推导]
双 Die CDMA 总带宽512 GB/s2 x 4 CDMA 并行 [推导]
C2C Link (112G)448 GB/s8 组 x4 SerDes [DOC]
交换机取决于端口带宽和拥塞多对多通信时可能成为瓶颈

关键结论

单 Die 场景:CDMA 总带宽 256 GB/s < C2C Link 448 GB/s,CDMA 是瓶颈。C2C Link 带宽无法被充分利用,多出的 192 GB/s 带宽空闲。[推导]

双 Die 协同场景:CDMA 总带宽 512 GB/s > C2C Link 448 GB/s,C2C Link 是瓶颈。两个 Die 的 CDMA 引擎可以饱和 C2C Link,此时有效带宽受限于物理链路。[推导]

交换机场景:当多芯片通过交换机互联时,交换机的端口带宽和内部交换容量可能成为额外瓶颈。具体取决于交换机规格和流量模式。


L1 拓扑对有效带宽的影响

L1 cluster 内的拓扑结构决定了 8 组 C2C Link 如何分配给邻居芯片,直接影响点对点有效带宽和集合通信效率。以 8 芯片、112G SerDes (单 x4 Link = 56 GB/s) 为例 [推导]

L1 拓扑端口分配点对点有效带宽AllReduce 带宽利用率说明
all2all每对芯片 1 port56 GB/s~100%任意两芯片直连,路由最短;8 芯片恰好用完 8 port (含自身不连) [推导]
ring邻居各 1 port56 GB/s~87.5%Ring AllReduce 需 N-1 步,利用率 = (N-1)/N [推导]
torus邻居各 2 port112 GB/s~Ring比 ring 增加跨维链路,邻居带宽翻倍,但 AllReduce 利用率相近 [推导]
cube邻居各 1 port56 GB/s取决于路由3D cube 邻居 3 个,非邻居需多跳,利用率受路由算法影响 [推导]
clos (交换机)取决于交换机取决于交换机取决于算法通过交换机中转,带宽受交换机端口和超额比限制

[推导] Math 模型当前使用单一 bandwidth_gbps 参数,无法区分上述拓扑差异。对于 ring/torus 等非全连接拓扑,实际可用带宽可能显著低于物理链路带宽。

注: 建模参数对照表、Math 模型增强建议、G5 仿真器建模分层方案等实现规划内容已迁移至 g5-simulator-design/09-c2c-modeling-plan.md