跳到主要内容

05. SG2262 C2C 拓扑与互联

互联架构分层

单层互联 vs 两层互联

[DOC] SG2262 C2C 互联分为两种架构模式:

架构描述适用规模
单层互联所有芯片在同一网络层互联最多 1024 芯片 (clos) 或 8 芯片 (cube)
两层互联 (L1 + L2)L1 形成 cluster,L2 连接 cluster总规模可达 1024 芯片

[DOC] 两层互联的分层定义:

  • L1 (Layer 1):cluster 内互联。支持任意拓扑(all2all / torus / ring / mesh / cube / clos),单 cluster 最多 32 芯片
  • L2 (Layer 2):cluster 间互联。仅支持交换机 (clos) 拓扑

[DOC] 路由原则:先做 L2 路由,再做 L1 路由。原因:L2 流量更加均匀,L1 交换机路由表更容易配置;对于低成本拓扑,设计更简单。

[PPT] CLE (Chip Address Lookup Engine) 状态机按以下顺序执行:

  1. 识别二层网络 chipid,判断目标是否在同一 cluster
  2. 若在同一 cluster -> 走 L1 路由(查找表或 itlv)
  3. 若不在同一 cluster -> 判断本芯片是否能做 L2 转发 -> 走 L2 路由(itlv)

系统模式

[DOC] SG2262 定义两种系统模式,均走同一套 spc.c2c 协议:

系统描述规模
系统一通过交换机互联最多 1024 芯片
系统二通过 Ethernet 点对点互联小规模直连

六种拓扑详解

拓扑总览

[DOC] SG2262 支持六种互联拓扑,按架构类型分为两大类:

单层互联拓扑:

拓扑描述最大规模交换机需求
clos所有芯片通过交换机互联,交换机可由多层 clos 组成1024 芯片需要交换机(可多层)
cube低成本服务器形态,芯片直连8 芯片无(芯片间直连)

两层互联拓扑 (L1 + L2):

拓扑L1 (cluster 内)L2 (cluster 间)特点
all2all + closall2all / torus / ring / mesh交换机标准两层互联
clos + clos交换机交换机全交换机方案
低成本 all2all + closall2all / torus / ring / mesh单轨交换机L2 带宽受限,成本低
低成本 clos + clos交换机单轨交换机全交换机低成本方案

[推导] 关键架构选择:

  • L1 cluster 内:支持任意点对点直连或交换机拓扑,最多 32 芯片
  • L2 cluster 间:仅支持交换机 (clos) 拓扑,无直连选项
  • 低成本变体通过限制 L2 为单轨交换机降低成本,代价是 L2 带宽受限

clos 拓扑

[DOC] clos 是最基础的单层互联拓扑。

网络结构:

  • 每颗芯片的 8 组 x4 C2C Link 均连接到交换机
  • 交换机负责基于 macid 做二层转发
  • 路径唯一:同 src macid + 同 dst macid + 同 hash value 时,交换机路径固定且严格保序
  • 交换机内部可由多层交换机组成 clos 网络(交换机内部拓扑不在 C2C 方案讨论范围)

规模与约束:

  • 最大支持 1024 芯片
  • macid 最长 10bit,分为三段:L2 高位 + L1 中位 + dieid 低位
  • 同时支持 DMAP 和 CMAP

[DOC] CLE 路由配置:

  • DMAP 场景:每个 die 出 c2c port 连接 switch,CLE 用 itlv 模式分配 portid
  • CMAP 场景:chip 的所有 c2c port 连接 switch,CLE 用 itlv 模式分配 portid

cube 拓扑

[DOC] cube 是低成本服务器形态,芯片之间直连,无需交换机。

网络结构:

  • 最多 8 颗芯片组成 3D cube(2x2x2)
  • 每颗芯片 8 条 C2C Link,部分用于直连邻居芯片,部分用于跨维度通信
  • 芯片本身可做转发(chip forwarding),数据可通过中间芯片中继

[PPT] EP8 场景需优先走红色链路(即优先维度的直连路径)。

规模与约束:

  • 最大支持 8 芯片
  • 仅支持 CMAP
  • 仅支持单层互联

[DOC] CLE 路由配置:使用查找表模式(非 itlv),根据 chipid 直接索引到 portid,实现点对点路由。

all2all + clos 拓扑

[DOC] 标准两层互联拓扑。L1 cluster 内芯片通过直连互联,L2 cluster 间通过交换机连接。

网络结构:

  • L1:cluster 内最多 32 芯片,采用 all2all(可换为 torus / ring / mesh)直连
  • L2:cluster 间通过交换机互联
  • 每颗芯片的 8 条 C2C Link 在两层之间分配:x 条用于 L1,(8-x) 条用于 L2

[PPT] L1 流量通过芯片直连传输;L2 流量需要先经过 cluster 内有 L2 Link 的芯片转发到交换机,或直接从本芯片的 L2 Link 发出。CLE 中的 L2_PORT_EXIST 寄存器标识本芯片是否有 L2 Link,L2_SW_CAP_PORT 指向本 cluster 中有 L2 Link 的芯片。

规模与约束:

  • L1 cluster 内最多 32 芯片
  • L2 支持多 cluster 互联,总规模可达 1024 芯片
  • 仅支持 CMAP
  • 路由表最多 32 表项,itlv 粒度支持:1, 2, 3, 4, 6, 8, 12, 16

clos + clos 拓扑

[DOC] 全交换机两层拓扑。L1 和 L2 均通过交换机互联。

网络结构:

  • L1:cluster 内最多 32 芯片,通过 L1 交换机互联
  • L2:cluster 间通过 L2 交换机互联
  • 芯片的 8 条 C2C Link 分别连接 L1 交换机和 L2 交换机

规模与约束:

  • 总规模可达 1024 芯片
  • 仅支持 CMAP
  • L1 和 L2 均使用 itlv 模式路由

低成本 all2all + clos 拓扑

[DOC] 与标准 all2all + clos 相同的架构,区别在于 L2 交换机为单轨,用于低成本互联场景。

网络结构:

  • L1 与标准 all2all + clos 相同
  • L2 交换机为单轨:每颗芯片只用少量 Link(甚至只有 1 条)连接 L2 交换机
  • cluster 内部分芯片可能不具备 L2 Link,需依赖同 cluster 内有 L2 Link 的芯片做转发

[DOC] CLE 中 L2_PORT_EXIST 为 false 的芯片,其 L2 流量发给 L2_SW_CAP_PORT 指向的芯片中转。

规模与约束:

  • L2 带宽受限于单轨交换机
  • 仅支持 CMAP
  • 适用于对 L2 带宽需求不高的场景

低成本 clos + clos 拓扑

[DOC] 全交换机方案的低成本变体。

网络结构:

  • L1 通过交换机互联,与标准 clos + clos 相同
  • L2 交换机为单轨

规模与约束:

  • 与低成本 all2all + clos 类似,L2 带宽受限
  • 仅支持 CMAP

拓扑建立过程

静态配置 vs 动态建立

[DOC] SG2262 支持两种拓扑建立方式:

方式描述适用场景
静态配置预配置所有路由表和 MAC ID 映射固定拓扑、部署确定性要求高
动态建立通过广播发现芯片,自动建立路由灵活部署、热插拔场景

动态建立注意事项

[DOC] 动态建立阶段的 MAC ID 广播需解决报文过滤问题:

  • 广播阶段需过滤不属于本 chip / cluster 的报文
  • 从交换机来的报文一定属于本 chip / cluster(交换机保证了 domain 隔离)
  • 必须防止错误报文造成系统错误

基本概念

[PPT] Link Aggregation 是将多条物理 C2C Link 聚合为一个逻辑通道的机制。同一聚合组内的多条 Link 视为一个整体,共用一个 RN/SN。

设计规则

[PPT] 关键规则:

  1. 同一 aggregation 组共用 RN/SN:aggregation 组内的多条 Link 在 NoC 层面表现为单一节点
  2. 流量 interleave 分散:CDMA 发出的流量通过 CLE 的 itlv 机制,在 aggregation 组内的多条 Link 之间做 interleave,分散带宽负载

[DOC] itlv 支持的粒度:1, 2, 3, 4, 6, 8, 12, 16。每项查找表最多支持 4 个 port 做 itlv。

[推导]

特性独立 LinkLink Aggregation
RN/SN每条 Link 独立组内共用
流量分配CDMA 指定具体 Linkitlv 自动分散
带宽单条 Link 带宽组内 Link 带宽之和
隔离性完全隔离组内共享,组间隔离

[PPT] 隔离设计原则:每个 CDMA 和每个 C2C 各自独立出 RN/SN,防止不同 layer 间的反压和带宽不均衡互相影响;Link Aggregation 组内共用一个 RN/SN(组间仍隔离)。完整的 RN/SN 分离策略表见 02_cdma.md §2

MAC ID 映射与拓扑兼容性

MAC ID 编址方案、DMAP/CMAP 行为与 VMACID 映射的完整描述见 01_mac-id-routing.md。本节仅汇总与拓扑选择直接相关的兼容性结论。

[DOC] 各拓扑对 DMAP 和 CMAP 的兼容性:

拓扑CMAPDMAP
closYY
cubeYN
all2all + closYN
clos + closYN
低成本 all2all + closYN
低成本 clos + closYN

[DOC] CMAP 支持全部六种拓扑(通用方案);DMAP 仅在单层 clos 下有效,优势是可避免 D2D 冗余流量。兼容性差异的详细原因见 01_mac-id-routing.md §2-4

物理链路配置

[DOC] 每颗 SG2262 芯片的物理链路配置:

  • 8 组 x4 C2C Link(每组 4 lane,每 lane 支持 56G / 112G SerDes)
  • 1 组 x16 PCIe Link

MAC + SerDes 延迟模型

[DOC] C2C Link 物理层由 MAC 和 SerDes 两级组成,关键参数:

参数说明
mac_latency_nsMAC 封装/拆包延迟
serdes_latency_nsSerDes 编解码延迟
mtu_bytes1536 (1.5 KB MTU)

[推导] 数据传输过程:

  1. 报文拆分:大于 MTU 的数据拆分为 ceil(data_bytes / mtu_bytes) 个 MAC 帧
  2. per-frame 延迟:每帧经历 MAC 延迟 + SerDes 延迟 + 线上传输时间
  3. 多帧流水传输:多个 MAC 帧以流水方式发送,不需等前一帧到达再发下一帧
  4. 8 link 均匀分配:通过 itlv 机制将帧均匀分散到 8 条 C2C Link(均匀 interleave)

CLE 路由表与拓扑配置

CLE 路由引擎的完整规格(寄存器、查找表结构、状态机、interleave 粒度)见 01_mac-id-routing.md §5。本节仅列出不同拓扑下的 CLE 配置差异。

[DOC] 不同拓扑下的 CLE 配置差异:

拓扑L1 模式L2 模式转发策略
clos (DMAP)itlv-无转发
clos (CMAP)itlv-无转发
cube查找表-芯片转发
all2all + clos查找表 (L1) + itlv (L2)itlv优先转发 L2
clos + clositlv (L1) + itlv (L2)itlv优先转发 L2
低成本 all2all + clos查找表 (L1) + itlv (L2)itlv优先转发 L2,无 L2 Link 的芯片走 L2_SW_CAP_PORT
低成本 clos + clositlv (L1) + itlv (L2)itlv优先转发 L2,无 L2 Link 的芯片走 L2_SW_CAP_PORT

[PPT] CLE 核心决策已确认:优先转发 L2。即当一笔请求需要跨 cluster 时,CLE 优先做 L2 路由选择,再做 L1 路由。方案二(优先转发 L1)因 L1 匹配的节点未必有 L2 port,状态机更复杂,被排除。