跳到主要内容

国产 AI 芯片互联技术概览

国产 AI 芯片在互联技术上形成了各自的技术路线。节点内方案主要包括华为的 HCCS(Huawei Chip-to-Chip Subsystem)、燧原/海光等采用的 RoCE 方案,以及 SG2262 基于 PAXI 协议实现的 C2C 互联。本文从规格和特性角度进行横向对比,不重复 docs/design/ 中的协议细节。

受限于公开信息,非本项目芯片(华为/燧原/壁仞/海光)的部分参数为公开资料估算值,标注"(公开资料)"。SG2262 参数均来自内部设计文档,标注"[DOC]"。

主要技术路线对比

技术厂商 / 芯片单芯片节点内带宽(双向)协议基础最大互联规模主要特点
HCCS华为 / Ascend 910B~400 GB/s(估,公开资料)自研私有协议8 卡全连接(单节点)类 NVLink 定位,CANN 软件栈配套
C2C (PAXI)算能 / SG2262448 GB/s @ 112G [DOC]PAXI (AXI over Ethernet)1024 芯片(含交换机)基于以太网二层、兼容标准交换机
RoCE + PCIe燧原 / T20受限于 PCIe Gen4(~63 GB/s,公开资料)标准 RoCEv2取决于网络规模节点内带宽低,依赖节点间 RDMA
xGMI (ROCm)海光 / DCU Z100L~128–400 GB/s(公开资料,型号相关)兼容 AMD xGMI受限(公开资料不足)对标 AMD MI250,ROCm 生态兼容
PCIe Gen4壁仞 / BR100~63–100 GB/s(公开资料,估算)PCIe + 私有公开信息有限单精度算力标称极高,互联细节未公开

HCCS(华为芯片间通信子系统)

搭载芯片与定位

HCCS(Huawei Chip-to-Chip Subsystem)是华为面向昇腾系列 AI 加速芯片开发的私有片间高速互联协议,定位对标 NVIDIA NVLink,用于单节点内多卡全连接。(公开资料)

规格数据

参数Ascend 910Ascend 910B来源
节点内 HCCS 总带宽~400 GB/s~400–560 GB/s(估)公开资料
单节点芯片数88公开资料
互联拓扑全连接 Mesh(8 卡)全连接 Mesh(8 卡)公开资料
节点间互联100 GbE RoCE100 GbE RoCE公开资料

Atlas 900 集群架构

Atlas 900 超级计算集群每节点配置 8 张 Ascend 910B,通过 HCCS 实现节点内全连接;节点间通过 100 GbE RoCE(华为 MindX 网络)互联。典型 1024 卡规模下,128 节点通过 RoCE Spine-Leaf 组网。(公开资料)

软件栈

华为 CANN(Compute Architecture for Neural Networks)提供与 NCCL 对标的集合通信库(HCCL)。两者 API 语义兼容,但底层实现及调优方式不互通。(公开资料)


PAXI / SG2262 C2C 互联

SG2262(算能)的芯片间互联方案采用 PAXI 协议(Protocol of Accelerated eXchange Interconnect),由合见工业软件(UniVista)提供 IP 核。PAXI 将片上 AXI4 总线事务透明地映射到以太网物理链路,从软件视角看远端芯片内存与本地地址空间无差异。

本节为研究视角摘要,完整协议细节见 docs/design/2262-C2C/docs/design/PAXI/

关键规格

参数来源
SerDes 速率档位56 Gbps / 112 Gbps / 224 Gbps per lane[DOC]
每芯片 C2C 端口8 组 x4 Link[DOC]
单芯片 C2C 总带宽(单向)224 GB/s @ 56G / 448 GB/s @ 112G / 896 GB/s @ 224G[DOC] 推导: 8 × 4 × 速率 / 8
PAXI 有效带宽(112G,含协议头)~432 GB/s(封装效率约 96.4%)[DOC] 推导: 448 × 1344 / (1344 + 50)
最大互联规模1024 芯片(通过交换机)/ 8 芯片(直连 cube 拓扑)[DOC]
L1 cluster 最大规模32 芯片[DOC]
AXI-to-AXI 端到端延迟低至 150 ns @ 400G(P2P 直连,无 NoC 条件)[DOC]
虚拟通道数(VC)8(CBFC/PFC 模式)[DOC]
OST 上限(TYPE1)512 outstanding 请求[DOC]
多播支持最多 8 组,每组最多 16 设备[DOC]

支持的拓扑

拓扑层级最大规模交换机需求
clos单层1024 芯片需要(可多层 Clos)
cube单层8 芯片无(芯片直连)
all2all + clos两层(L1 + L2)1024 芯片L2 需交换机
clos + clos两层1024 芯片L1、L2 均需交换机
低成本 all2all + clos两层1024 芯片(L2 带宽受限)L2 单轨交换机

协议特点摘要

PAXI(SUE2.0)协议栈分五层:SerDes(112G PAM4)→ CESOC(MAC/PCS/FEC)→ RC Link(传输层,Go-Back-N 重传、CBFC 流控)→ PAXI Core(事务层,AXI ↔ Flit 编码)→ 应用层(AXI4/APB3 接口)。

与旧版架构相比,SUE2.0 的关键变化:

  • RC Link 传输层(必选组件)替代了旧版 RDMA Engine,提供端到端可靠重传
  • 虚拟通道从 3 个扩展为 8 个(CBFC/PFC 均支持),支持 REQ/RSP 隔离防死锁
  • 流控职责下放:PAXI Core 专注协议转换,CBFC 流控由 RC Link 层管理
  • 新增多播支持(旧版不支持)

流控机制提供两种模式(互斥):

  • CBFC(Credit-Based Flow Control):per-VC credit 追踪,适用于支持 CBFC 的交换机
  • PFC(Priority Flow Control):基于 RX buffer 水位线,适用于标准以太网交换机

限制与约束:

  • 路径唯一,不支持 ECMP 等多路径算法
  • Read 操作性能代价较大,软件应尽量以 Write 替代([DOC])
  • Send/Receive 通信为严格 thread 级一对一配对

其他厂商互联方案

燧原 T20

燧原 T20 节点内通过 PCIe Gen4 连接,节点间采用 InfiniBand(EDR/HDR 等级,公开资料),主要依赖节点间网络承载 AllReduce 通信。节点内带宽受 PCIe 制约,约 63 GB/s 双向,显著低于 NVLink 或 HCCS。(公开资料)

壁仞 BR100

壁仞 BR100 对外宣称超高单精度和混合精度算力,但互联架构细节公开信息极少。已知通过 PCIe 与主机连接,卡间直连互联规格(公开资料)暂未明确披露。(公开资料)

海光 DCU

海光 DCU(如 Z100L、Z100)走 AMD MI 架构兼容路线,节点内通过类 xGMI/Infinity Fabric 互联,软件栈兼容 ROCm。节点间配套 InfiniBand 或 RoCE。公开规格显示节点内互联带宽低于 AMD MI 同代产品。(公开资料)


与国际方案的差距分析

维度国产主流方案NVIDIA(参考基准)差距说明
节点内单芯片带宽448 GB/s(SG2262 @112G)/ 896 GB/s(@224G)/ ~400–560 GB/s(HCCS 估)900 GB/s(H100 NVLink 4.0)/ 1800 GB/s(B200 NVLink 5.0)SG2262 @112G 为 H100 约 50%,224G 档接近 H100;HCCS 与 H100 相近但仍有差距;B200 均处于较大劣势
节点间网络100 GbE RoCE(华为)/ InfiniBand(部分)InfiniBand NDR(400 Gbps)/ XDR(800 Gbps)华为 RoCE 方案线速较低;燧原等采用 IB 但生态成熟度弱
拓扑灵活性固定 Mesh(HCCS 8 卡)/ 多拓扑(SG2262 含 Clos)NVSwitch 全连接,任意 GPU-to-GPU 等带宽HCCS 固定 8 卡全连;SG2262 多拓扑支持相对灵活
软件生态HCCL(华为)/ 各自私有NCCL(主导行业)、Megatron-LM 深度集成互操作性弱,缺乏统一集合通信库标准
交换机兼容性SG2262 基于以太网二层,兼容标准交换机NVSwitch 专有,生态封闭SG2262 方案开放度更高,可复用商用以太网交换机
可靠性机制LLR + E2E Retry + CBFC(SG2262)硬件保障,成熟度高国产方案机制完备,但大规模工程验证经验仍在积累