国产 AI 芯片互联技术概览
国产 AI 芯片在互联技术上形成了各自的技术路线。节点内方案主要包括华为的 HCCS(Huawei Chip-to-Chip Subsystem)、燧原/海光等采用的 RoCE 方案,以及 SG2262 基于 PAXI 协议实现的 C2C 互联。本文从规格和特性角度进行横向对比,不重复 docs/design/ 中的协议细节。
受限于公开信息,非本项目芯片(华为/燧原/壁仞/海光)的部分参数为公开资料估算值,标注"(公开资料)"。SG2262 参数均来自内部设计文档,标注"[DOC]"。
主要技术路线对比
| 技术 | 厂商 / 芯片 | 单芯片节点内带宽(双向) | 协议基础 | 最大互联规模 | 主要特点 |
|---|---|---|---|---|---|
| HCCS | 华为 / Ascend 910B | ~400 GB/s(估,公开资料) | 自研私有协议 | 8 卡全连接(单节点) | 类 NVLink 定位,CANN 软件栈配套 |
| C2C (PAXI) | 算能 / SG2262 | 448 GB/s @ 112G [DOC] | PAXI (AXI over Ethernet) | 1024 芯片(含交换机) | 基于以太网二层、兼容标准交换机 |
| RoCE + PCIe | 燧原 / T20 | 受限于 PCIe Gen4(~63 GB/s,公开资料) | 标准 RoCEv2 | 取决于网络规模 | 节点内带宽低,依赖节点间 RDMA |
| xGMI (ROCm) | 海光 / DCU Z100L | ~128–400 GB/s(公开资料,型号相关) | 兼容 AMD xGMI | 受限(公开资料不足) | 对标 AMD MI250,ROCm 生态兼容 |
| PCIe Gen4 | 壁仞 / BR100 | ~63–100 GB/s(公开资料,估算) | PCIe + 私有 | 公开信息有限 | 单精度算力标称极高,互联细节未公开 |
HCCS(华为芯片间通信子系统)
搭载芯片与定位
HCCS(Huawei Chip-to-Chip Subsystem)是华为面向昇腾系列 AI 加速芯片开发的私有片间高速互联协议,定位对标 NVIDIA NVLink,用于单节点内多卡全连接。(公开资料)
规格数据
| 参数 | Ascend 910 | Ascend 910B | 来源 |
|---|---|---|---|
| 节点内 HCCS 总带宽 | ~400 GB/s | ~400–560 GB/s(估) | 公开资料 |
| 单节点芯片数 | 8 | 8 | 公开资料 |
| 互联拓扑 | 全连接 Mesh(8 卡) | 全连接 Mesh(8 卡) | 公开资料 |
| 节点间互联 | 100 GbE RoCE | 100 GbE RoCE | 公开资料 |
Atlas 900 集群架构
Atlas 900 超级计算集群每节点配置 8 张 Ascend 910B,通过 HCCS 实现节点内全连接;节点间通过 100 GbE RoCE(华为 MindX 网络)互联。典型 1024 卡规模下,128 节点通过 RoCE Spine-Leaf 组网。(公开资料)
软件栈
华为 CANN(Compute Architecture for Neural Networks)提供与 NCCL 对标的集合通信库(HCCL)。两者 API 语义兼容,但底层实现及调优方式不互通。(公开资料)
PAXI / SG2262 C2C 互联
SG2262(算能)的芯片间互联方案采用 PAXI 协议(Protocol of Accelerated eXchange Interconnect),由合见工业软件(UniVista)提供 IP 核。PAXI 将片上 AXI4 总线事务透明地映射到以太网物理链路,从软件视角看远端芯片内存与本地地址空间无差异。
本节为研究视角摘要,完整协议细节见
docs/design/2262-C2C/和docs/design/PAXI/。
关键规格
| 参数 | 值 | 来源 |
|---|---|---|
| SerDes 速率档位 | 56 Gbps / 112 Gbps / 224 Gbps per lane | [DOC] |
| 每芯片 C2C 端口 | 8 组 x4 Link | [DOC] |
| 单芯片 C2C 总带宽(单向) | 224 GB/s @ 56G / 448 GB/s @ 112G / 896 GB/s @ 224G | [DOC] 推导: 8 × 4 × 速率 / 8 |
| PAXI 有效带宽(112G,含协议头) | ~432 GB/s(封装效率约 96.4%) | [DOC] 推导: 448 × 1344 / (1344 + 50) |
| 最大互联规模 | 1024 芯片(通过交换机)/ 8 芯片(直连 cube 拓扑) | [DOC] |
| L1 cluster 最大规模 | 32 芯片 | [DOC] |
| AXI-to-AXI 端到端延迟 | 低至 150 ns @ 400G(P2P 直连,无 NoC 条件) | [DOC] |
| 虚拟通道数(VC) | 8(CBFC/PFC 模式) | [DOC] |
| OST 上限(TYPE1) | 512 outstanding 请求 | [DOC] |
| 多播支持 | 最多 8 组,每组最多 16 设备 | [DOC] |
支持的拓扑
| 拓扑 | 层级 | 最大规模 | 交换机需求 |
|---|---|---|---|
| clos | 单层 | 1024 芯片 | 需要(可多层 Clos) |
| cube | 单层 | 8 芯片 | 无(芯片直连) |
| all2all + clos | 两层(L1 + L2) | 1024 芯片 | L2 需交换机 |
| clos + clos | 两层 | 1024 芯片 | L1、L2 均需交换机 |
| 低成本 all2all + clos | 两层 | 1024 芯片(L2 带宽受限) | L2 单轨交换机 |
协议特点摘要
PAXI(SUE2.0)协议栈分五层:SerDes(112G PAM4)→ CESOC(MAC/PCS/FEC)→ RC Link(传输层,Go-Back-N 重传、CBFC 流控)→ PAXI Core(事务层,AXI ↔ Flit 编码)→ 应用层(AXI4/APB3 接口)。
与旧版架构相比,SUE2.0 的关键变化:
- RC Link 传输层(必选组件)替代了旧版 RDMA Engine,提供端到端可靠重传
- 虚拟通道从 3 个扩展为 8 个(CBFC/PFC 均支持),支持 REQ/RSP 隔离防死锁
- 流控职责下放:PAXI Core 专注协议转换,CBFC 流控由 RC Link 层管理
- 新增多播支持(旧版不支持)
流控机制提供两种模式(互斥):
- CBFC(Credit-Based Flow Control):per-VC credit 追踪,适用于支持 CBFC 的交换机
- PFC(Priority Flow Control):基于 RX buffer 水位线,适用于标准以太网交换机
限制与约束:
- 路径唯一,不支持 ECMP 等多路径算法
- Read 操作性能代价较大,软件应尽量以 Write 替代([DOC])
- Send/Receive 通信为严格 thread 级一对一配对
其他厂商互联方案
燧原 T20
燧原 T20 节点内通过 PCIe Gen4 连接,节点间采用 InfiniBand(EDR/HDR 等级,公开资料),主要依赖节点间网络承载 AllReduce 通信。节点内带宽受 PCIe 制约,约 63 GB/s 双向,显著低于 NVLink 或 HCCS。(公开资料)
壁仞 BR100
壁仞 BR100 对外宣称超高单精度和混合精度算力,但互联架构细节公开信息极少。已知通过 PCIe 与主机连接,卡间直连互联规格(公开资料)暂未明确披露。(公开资料)
海光 DCU
海光 DCU(如 Z100L、Z100)走 AMD MI 架构兼容路线,节点内通过类 xGMI/Infinity Fabric 互联,软件栈兼容 ROCm。节点间配套 InfiniBand 或 RoCE。公开规格显示节点内互联带宽低于 AMD MI 同代产品。(公开资料)
与国际方案的差距分析
| 维度 | 国产主流方案 | NVIDIA(参考基准) | 差距说明 |
|---|---|---|---|
| 节点内单芯片带宽 | 448 GB/s(SG2262 @112G)/ 896 GB/s(@224G)/ ~400–560 GB/s(HCCS 估) | 900 GB/s(H100 NVLink 4.0)/ 1800 GB/s(B200 NVLink 5.0) | SG2262 @112G 为 H100 约 50%,224G 档接近 H100;HCCS 与 H100 相近但仍有差距;B200 均处于较大劣势 |
| 节点间网络 | 100 GbE RoCE(华为)/ InfiniBand(部分) | InfiniBand NDR(400 Gbps)/ XDR(800 Gbps) | 华为 RoCE 方案线速较低;燧原等采用 IB 但生态成熟度弱 |
| 拓扑灵活性 | 固定 Mesh(HCCS 8 卡)/ 多拓扑(SG2262 含 Clos) | NVSwitch 全连接,任意 GPU-to-GPU 等带宽 | HCCS 固定 8 卡全连;SG2262 多拓扑支持相对灵活 |
| 软件生态 | HCCL(华为)/ 各自私有 | NCCL(主导行业)、Megatron-LM 深度集成 | 互操作性弱,缺乏统一集合通信库标准 |
| 交换机兼容性 | SG2262 基于以太网二层,兼容标准交换机 | NVSwitch 专有,生态封闭 | SG2262 方案开放度更高,可复用商用以太网交换机 |
| 可靠性机制 | LLR + E2E Retry + CBFC(SG2262) | 硬件保障,成熟度高 | 国产方案机制完备,但大规模工程验证经验仍在积累 |