国产 AI 芯片互联技术概览

国产 AI 芯片在互联技术上形成了各自的技术路线。节点内方案主要包括华为的 HCCS（Huawei Chip-to-Chip Subsystem）、燧原/海光等采用的 RoCE 方案，以及 SG2262 基于 PAXI 协议实现的 C2C 互联。本文从规格和特性角度进行横向对比，不重复 docs/design/ 中的协议细节。

受限于公开信息，非本项目芯片（华为/燧原/壁仞/海光）的部分参数为公开资料估算值，标注"（公开资料）"。SG2262 参数均来自内部设计文档，标注"[DOC]"。

主要技术路线对比

技术	厂商 / 芯片	单芯片节点内带宽（双向）	协议基础	最大互联规模	主要特点
HCCS	华为 / Ascend 910B	~400 GB/s（估，公开资料）	自研私有协议	8 卡全连接（单节点）	类 NVLink 定位，CANN 软件栈配套
C2C (PAXI)	算能 / SG2262	448 GB/s @ 112G [DOC]	PAXI (AXI over Ethernet)	1024 芯片（含交换机）	基于以太网二层、兼容标准交换机
RoCE + PCIe	燧原 / T20	受限于 PCIe Gen4（~63 GB/s，公开资料）	标准 RoCEv2	取决于网络规模	节点内带宽低，依赖节点间 RDMA
xGMI (ROCm)	海光 / DCU Z100L	~128–400 GB/s（公开资料，型号相关）	兼容 AMD xGMI	受限（公开资料不足）	对标 AMD MI250，ROCm 生态兼容
PCIe Gen4	壁仞 / BR100	~63–100 GB/s（公开资料，估算）	PCIe + 私有	公开信息有限	单精度算力标称极高，互联细节未公开

HCCS（华为芯片间通信子系统）

搭载芯片与定位

HCCS（Huawei Chip-to-Chip Subsystem）是华为面向昇腾系列 AI 加速芯片开发的私有片间高速互联协议，定位对标 NVIDIA NVLink，用于单节点内多卡全连接。（公开资料）

规格数据

参数	Ascend 910	Ascend 910B	来源
节点内 HCCS 总带宽	~400 GB/s	~400–560 GB/s（估）	公开资料
单节点芯片数	8	8	公开资料
互联拓扑	全连接 Mesh（8 卡）	全连接 Mesh（8 卡）	公开资料
节点间互联	100 GbE RoCE	100 GbE RoCE	公开资料

Atlas 900 集群架构

Atlas 900 超级计算集群每节点配置 8 张 Ascend 910B，通过 HCCS 实现节点内全连接；节点间通过 100 GbE RoCE（华为 MindX 网络）互联。典型 1024 卡规模下，128 节点通过 RoCE Spine-Leaf 组网。（公开资料）

软件栈

华为 CANN（Compute Architecture for Neural Networks）提供与 NCCL 对标的集合通信库（HCCL）。两者 API 语义兼容，但底层实现及调优方式不互通。（公开资料）

PAXI / SG2262 C2C 互联

SG2262（算能）的芯片间互联方案采用 PAXI 协议（Protocol of Accelerated eXchange Interconnect），由合见工业软件（UniVista）提供 IP 核。PAXI 将片上 AXI4 总线事务透明地映射到以太网物理链路，从软件视角看远端芯片内存与本地地址空间无差异。

本节为研究视角摘要，完整协议细节见 docs/design/2262-C2C/ 和 docs/design/PAXI/。

关键规格

参数	值	来源
SerDes 速率档位	56 Gbps / 112 Gbps / 224 Gbps per lane	[DOC]
每芯片 C2C 端口	8 组 x4 Link	[DOC]
单芯片 C2C 总带宽（单向）	224 GB/s @ 56G / 448 GB/s @ 112G / 896 GB/s @ 224G	[DOC] 推导: 8 × 4 × 速率 / 8
PAXI 有效带宽（112G，含协议头）	~432 GB/s（封装效率约 96.4%）	[DOC] 推导: 448 × 1344 / (1344 + 50)
最大互联规模	1024 芯片（通过交换机）/ 8 芯片（直连 cube 拓扑）	[DOC]
L1 cluster 最大规模	32 芯片	[DOC]
AXI-to-AXI 端到端延迟	低至 150 ns @ 400G（P2P 直连，无 NoC 条件）	[DOC]
虚拟通道数（VC）	8（CBFC/PFC 模式）	[DOC]
OST 上限（TYPE1）	512 outstanding 请求	[DOC]
多播支持	最多 8 组，每组最多 16 设备	[DOC]

支持的拓扑

拓扑	层级	最大规模	交换机需求
clos	单层	1024 芯片	需要（可多层 Clos）
cube	单层	8 芯片	无（芯片直连）
all2all + clos	两层（L1 + L2）	1024 芯片	L2 需交换机
clos + clos	两层	1024 芯片	L1、L2 均需交换机
低成本 all2all + clos	两层	1024 芯片（L2 带宽受限）	L2 单轨交换机

协议特点摘要

PAXI（SUE2.0）协议栈分五层：SerDes（112G PAM4）→ CESOC（MAC/PCS/FEC）→ RC Link（传输层，Go-Back-N 重传、CBFC 流控）→ PAXI Core（事务层，AXI ↔ Flit 编码）→ 应用层（AXI4/APB3 接口）。

与旧版架构相比，SUE2.0 的关键变化：

RC Link 传输层（必选组件）替代了旧版 RDMA Engine，提供端到端可靠重传
虚拟通道从 3 个扩展为 8 个（CBFC/PFC 均支持），支持 REQ/RSP 隔离防死锁
流控职责下放：PAXI Core 专注协议转换，CBFC 流控由 RC Link 层管理
新增多播支持（旧版不支持）

流控机制提供两种模式（互斥）：

CBFC（Credit-Based Flow Control）：per-VC credit 追踪，适用于支持 CBFC 的交换机
PFC（Priority Flow Control）：基于 RX buffer 水位线，适用于标准以太网交换机

限制与约束：

路径唯一，不支持 ECMP 等多路径算法
Read 操作性能代价较大，软件应尽量以 Write 替代（[DOC]）
Send/Receive 通信为严格 thread 级一对一配对

其他厂商互联方案

燧原 T20

燧原 T20 节点内通过 PCIe Gen4 连接，节点间采用 InfiniBand（EDR/HDR 等级，公开资料），主要依赖节点间网络承载 AllReduce 通信。节点内带宽受 PCIe 制约，约 63 GB/s 双向，显著低于 NVLink 或 HCCS。（公开资料）

壁仞 BR100

壁仞 BR100 对外宣称超高单精度和混合精度算力，但互联架构细节公开信息极少。已知通过 PCIe 与主机连接，卡间直连互联规格（公开资料）暂未明确披露。（公开资料）

海光 DCU

海光 DCU（如 Z100L、Z100）走 AMD MI 架构兼容路线，节点内通过类 xGMI/Infinity Fabric 互联，软件栈兼容 ROCm。节点间配套 InfiniBand 或 RoCE。公开规格显示节点内互联带宽低于 AMD MI 同代产品。（公开资料）

与国际方案的差距分析

维度	国产主流方案	NVIDIA（参考基准）	差距说明
节点内单芯片带宽	448 GB/s（SG2262 @112G）/ 896 GB/s（@224G）/ ~400–560 GB/s（HCCS 估）	900 GB/s（H100 NVLink 4.0）/ 1800 GB/s（B200 NVLink 5.0）	SG2262 @112G 为 H100 约 50%，224G 档接近 H100；HCCS 与 H100 相近但仍有差距；B200 均处于较大劣势
节点间网络	100 GbE RoCE（华为）/ InfiniBand（部分）	InfiniBand NDR（400 Gbps）/ XDR（800 Gbps）	华为 RoCE 方案线速较低；燧原等采用 IB 但生态成熟度弱
拓扑灵活性	固定 Mesh（HCCS 8 卡）/ 多拓扑（SG2262 含 Clos）	NVSwitch 全连接，任意 GPU-to-GPU 等带宽	HCCS 固定 8 卡全连；SG2262 多拓扑支持相对灵活
软件生态	HCCL（华为）/ 各自私有	NCCL（主导行业）、Megatron-LM 深度集成	互操作性弱，缺乏统一集合通信库标准
交换机兼容性	SG2262 基于以太网二层，兼容标准交换机	NVSwitch 专有，生态封闭	SG2262 方案开放度更高，可复用商用以太网交换机
可靠性机制	LLR + E2E Retry + CBFC（SG2262）	硬件保障，成熟度高	国产方案机制完备，但大规模工程验证经验仍在积累

主要技术路线对比​

HCCS（华为芯片间通信子系统）​

搭载芯片与定位​

规格数据​

Atlas 900 集群架构​

软件栈​

PAXI / SG2262 C2C 互联​

关键规格​

支持的拓扑​

协议特点摘要​

其他厂商互联方案​

燧原 T20​

壁仞 BR100​

海光 DCU​

与国际方案的差距分析​