06. 建模参数与仿真指导

本文汇总 SG2262 C2C 子系统的建模参数，分析通信瓶颈，并给出 G5 仿真器与 Math 模型的参数映射和增强方向。

来源标记约定：

[DOC] = SG2262 C2C 方案设计文档
[PPT] = 2262 C2C feature PPT
[推导] = 基于原始参数推算，附计算过程

通信性能关键参数汇总

C2C Link 带宽

SG2262 每颗芯片配置 8 组 x4 SerDes Link，支持三种速率档位 [DOC]：

参数	56G 配置	112G 配置	224G 配置	来源
单 lane 速率	56 Gbps	112 Gbps	224 Gbps	[DOC]
单 Chip C2C 总带宽	224 GB/s	448 GB/s	896 GB/s	[推导] 8 x4 x 速率 / 8

224G 配置说明：当 SerDes 速率与交换机不匹配时，需要 gearbox 芯片桥接（通常使用带 gearbox 的 AEC/光模块）。[DOC]

CDMA 引擎参数

参数	值	来源
CDMA 数量 / Die	4	[DOC]
CDMA 位宽	512 bit	[PPT]
单 CDMA 带宽上限	64 GB/s	[DOC]
CDMA 总带宽 / Die	256 GB/s	[推导] 4 x 64 GB/s
CDMA 总带宽 / Chip (双 Die)	512 GB/s	[推导] 8 x 64 GB/s
Thread 数 / CDMA	8	[推导] 参考 32 Thread/Die / 4 CDMA
CDMA Thread 总数 / Die	32	[推导] 4 CDMA x 8 Thread
tcredit 队列深度	32 / CDMA	[DOC]
tcredit tracker 匹配	chipid + cdmaid 寄存器	[PPT]
一次通信最大指令数	30	[DOC]

报文与协议参数

参数	值	来源
AXI 报文大小	256B / 512B	[DOC]
MAC MTU	1.5 KB	[DOC]
AXI boundary	4 KB	[DOC]
保序窗口最大数	32 (含 OSTD)	[DOC]
Bresp merge	CAM 结构, 同 dst_macid 合并	[DOC]
Datagram Buffer 深度	32 x 128B = 4 KB	[DOC]

PAXI 协议参数

参数	值	来源
PAXI 有效带宽 (112G)	~431.9 GB/s	[推导] 448 x 1344 / (1344 + 50)
PAXI OST 上限	512 (TYPE1)	[DOC]
PAXI VC 数	8	[DOC]
PAXI CBFC credit	可配 (32-2048B)	[DOC]

寻址与规模参数

参数	值	来源
MAC ID 最大长度	10 bit	[DOC]
VMACID 映射	最多 1024 PMACID -> VMACID	[DOC]
最大芯片数	1024	[DOC]
L1 cluster 最大芯片数	32	[DOC]

瓶颈分析

数据路径

完整的跨芯片数据搬运路径：

本地 LMEM -> CDMA -> NoC -> C2C MAC -> SerDes -> [交换机] -> SerDes -> C2C MAC -> NoC -> 远端 LMEM

瓶颈候选

瓶颈环节	带宽	约束条件
单 CDMA datapath	64 GB/s	8 个 Thread 共享，arbiter 仲裁引入开销 `[DOC]`
单 Die CDMA 总带宽	256 GB/s	4 个 CDMA 并行 `[推导]`
双 Die CDMA 总带宽	512 GB/s	2 x 4 CDMA 并行 `[推导]`
C2C Link (112G)	448 GB/s	8 组 x4 SerDes `[DOC]`
交换机	取决于端口带宽和拥塞	多对多通信时可能成为瓶颈

关键结论

单 Die 场景：CDMA 总带宽 256 GB/s < C2C Link 448 GB/s，CDMA 是瓶颈。C2C Link 带宽无法被充分利用，多出的 192 GB/s 带宽空闲。[推导]

双 Die 协同场景：CDMA 总带宽 512 GB/s > C2C Link 448 GB/s，C2C Link 是瓶颈。两个 Die 的 CDMA 引擎可以饱和 C2C Link，此时有效带宽受限于物理链路。[推导]

交换机场景：当多芯片通过交换机互联时，交换机的端口带宽和内部交换容量可能成为额外瓶颈。具体取决于交换机规格和流量模式。

L1 拓扑对有效带宽的影响

L1 cluster 内的拓扑结构决定了 8 组 C2C Link 如何分配给邻居芯片，直接影响点对点有效带宽和集合通信效率。以 8 芯片、112G SerDes (单 x4 Link = 56 GB/s) 为例 [推导]：

L1 拓扑	端口分配	点对点有效带宽	AllReduce 带宽利用率	说明
all2all	每对芯片 1 port	56 GB/s	~100%	任意两芯片直连，路由最短；8 芯片恰好用完 8 port (含自身不连) `[推导]`
ring	邻居各 1 port	56 GB/s	~87.5%	Ring AllReduce 需 N-1 步，利用率 = (N-1)/N `[推导]`
torus	邻居各 2 port	112 GB/s	~Ring	比 ring 增加跨维链路，邻居带宽翻倍，但 AllReduce 利用率相近 `[推导]`
cube	邻居各 1 port	56 GB/s	取决于路由	3D cube 邻居 3 个，非邻居需多跳，利用率受路由算法影响 `[推导]`
clos (交换机)	取决于交换机	取决于交换机	取决于算法	通过交换机中转，带宽受交换机端口和超额比限制

[推导] Math 模型当前使用单一 bandwidth_gbps 参数，无法区分上述拓扑差异。对于 ring/torus 等非全连接拓扑，实际可用带宽可能显著低于物理链路带宽。

注: 建模参数对照表、Math 模型增强建议、G5 仿真器建模分层方案等实现规划内容已迁移至 g5-simulator-design/09-c2c-modeling-plan.md。

通信性能关键参数汇总​

C2C Link 带宽​

CDMA 引擎参数​

报文与协议参数​

PAXI 协议参数​

寻址与规模参数​

瓶颈分析​

数据路径​

瓶颈候选​

关键结论​

L1 拓扑对有效带宽的影响​