互联硬件技术总览

本文从横向视角梳理 AI 芯片互联技术的分类、代际演进与在大模型集群中的分层角色，作为后续各专题文档的导航入口。

互联技术分类总览

名词定义

名词	定义
节点内互联（Intra-node Interconnect）	同一服务器或机箱内芯片之间的直接互联，带宽通常为数百 GB/s，代表技术有 NVLink、xGMI、ICI、HCCS
节点间网络（Inter-node Network）	跨服务器的网络互联，带宽通常为数十 GB/s，代表技术有 InfiniBand、RoCEv2
双向带宽（Bidirectional Bandwidth）	链路同时收发的聚合带宽，等于单向带宽的两倍，NVLink 通常以此口径报告
单端口线速（Port Line Rate）	交换机或网卡单个物理端口在全速状态下的数据传输速率，节点间网络以此口径报告
RDMA（Remote Direct Memory Access）	绕过 CPU 直接在两台机器内存间传输数据的技术，显著降低延迟和 CPU 占用，InfiniBand 和 RoCEv2 均基于此
Flit（Flow Control Unit）	链路层流量控制的最小单元，一个数据包由多个 flit 组成，flit 大小决定协议效率
协议效率（Protocol Efficiency）	有效载荷占总传输数据（含协议头）的比例，消息越小效率越低
BusBW（Bus Bandwidth）	nccl-tests 报告的总线带宽，按 Ring 算法流量因子 $2(N-1)/N$ 折算，便于跨规模比较
片内互联（Die-to-Die Interconnect）	同一芯片封装内多个裸片之间的互联，带宽为 TB/s 级，对用户透明，代表技术有 AMD xGMI（MI300X 内部）、SG2262 D2D

主要互联技术对比

节点内互联和节点间网络属于不同层级，带宽口径不同，不可直接横比。

节点内互联（同一服务器/机箱内，每芯片聚合双向带宽）

技术	厂商	适用层级	带宽范围（双向，每芯片）	代表产品
NVLink 5.0	NVIDIA	节点内	1800 GB/s	B200 / GB200 NVL72
NVLink 4.0	NVIDIA	节点内	900 GB/s	H100 / H200
NVLink 3.0	NVIDIA	节点内	600 GB/s	A100
xGMI / Infinity Fabric	AMD	节点内	896 GB/s	MI300X
ICI (Ironwood/TPU7x)	Google	节点内+跨机架	~1200 GB/s	TPU7x
ICI (TPU v4)	Google	节点内+跨机架	~576 GB/s	TPU v4
Gaudi 3 RoCE	Intel	节点内+跨节点	600 GB/s	Gaudi 3
HCCS (910B)	华为	节点内	~400-560 GB/s（估）	昇腾 910B
PCIe Gen5 x16	通用	CPU-加速卡	126 GB/s	基线参考
PCIe Gen4 x16	通用	CPU-加速卡	63 GB/s	基线参考

节点间网络（跨服务器，单端口线速）

技术	适用层级	单端口带宽	延迟	代表部署
InfiniBand XDR	节点间	800 Gbps (~100 GB/s)	~1-2 us	DGX B200
InfiniBand NDR	节点间	400 Gbps (~50 GB/s)	~1-2 us	DGX H100
InfiniBand HDR	节点间	200 Gbps (~25 GB/s)	~1-2 us	DGX A100
RoCEv2 (400GbE)	节点间	400 Gbps (~50 GB/s)	~2-5 us	Meta 24K GPU 集群

代际演进时间线

NVLink 代际带宽演进（每 GPU 双向）

年份	代际	GPU	双向带宽	增幅
2016	NVLink 1.0	P100	160 GB/s	基线
2017	NVLink 2.0	V100	300 GB/s	1.9x
2020	NVLink 3.0	A100	600 GB/s	2.0x
2022	NVLink 4.0	H100 / H200	900 GB/s	1.5x
2024	NVLink 5.0	B200 / GB200	1800 GB/s	2.0x

8 年间 NVLink 带宽增长约 11 倍，每代大致翻倍。

InfiniBand 代际演进

年份	代际	每端口线速	典型部署
2019	HDR	200 Gbps	DGX A100
2022	NDR	400 Gbps	DGX H100
2025	XDR	800 Gbps	DGX B200
~2027	GDR（预期）	1.6 Tbps	下一代

Google TPU ICI 演进

年份	代际	每芯片 ICI 带宽	拓扑	Pod 规模
2017	TPU v2	~500 Gbps (4 链路)	2D Torus	256 chips
2018	TPU v3	~656 Gbps (6 链路)	2D Torus	1024 chips
2022	TPU v4	~4.8 Tbps (6 链路)	3D Torus	4096 chips
2023	TPU v5p	~4.8 Tbps	3D Torus	8960 chips
2025	Ironwood (TPU7x)	~9.6 Tbps (1200 GB/s)	3D mesh（direct-neighbor）	9216 chips

PCIe 代际演进

代际	单向带宽 (x16)	双向带宽	典型场景
PCIe Gen3 x16	15.75 GB/s	31.5 GB/s	旧 GPU（V100 PCIe）
PCIe Gen4 x16	31.5 GB/s	63 GB/s	A100 PCIe、H20
PCIe Gen5 x16	63 GB/s	126 GB/s	H100 PCIe、B200 PCIe
PCIe Gen6 x16	~128 GB/s	~256 GB/s	下一代（待商用）

在大模型集群中的角色

大模型系统的互联需求按物理层级划分，各层性能差异决定了哪种并行策略最优：

层级 1: 片内互联（Die-to-Die）
  带宽: TB/s 级  |  延迟: ns 级
  例: AMD MI300X chiplet 间 xGMI，SG2262 Die-to-Die
  角色: 单芯片内的裸片间数据搬运，对用户透明

层级 2: 节点内互联（Chip-to-Chip，同一服务器）
  带宽: 数百 GB/s  |  延迟: 1-2 us
  例: NVLink 4.0/5.0，xGMI，ICI，HCCS，PAXI
  角色: Tensor Parallelism（TP）的主要通信层；AllReduce 延迟敏感

层级 3: 机架内跨节点（Node-to-Node，同 Rack）
  带宽: 数十 GB/s  |  延迟: 2-5 us
  例: InfiniBand NDR/XDR，RoCEv2
  角色: Pipeline Parallelism（PP）的 P2P 通信；Data Parallelism（DP）梯度同步

层级 4: 跨机架/跨 Pod（Rack-to-Rack，Pod-to-Pod）
  带宽: 数十 GB/s（受交换机瓶颈）  |  延迟: 5-20 us
  例: IB Fat-tree，RoCE Spine
  角色: Expert Parallelism（EP）的 AllToAll；大规模 DP 梯度同步

关键洞察：同一 GPU 在不同互联条件下，集合通信性能可以相差 10 倍以上。选择正确的并行策略，核心是尽量让通信量大的操作（TP AllReduce）落在带宽最高的层级（节点内互联）。

关键性能指标

指标	定义	测量工具	说明
BusBW	`AlgBW × 2(N-1)/N`，nccl-tests 报告的总线带宽	nccl-tests	按 Ring 算法流量因子折算，便于跨规模比较
AlgBW	`MessageSize / Time`，不含流量因子的原始算法带宽	nccl-tests	反映实际端到端吞吐
线速利用率	`AlgBW / 物理线速`	计算	衡量协议和软件效率；NVLink 大消息可达 93-106%
单跳延迟	单次数据包从发送到接收的时间	ping/RDMA lat test	NVLink: ~1-2 us；IB NDR: ~1-2 us；RoCE: ~2-5 us
协议效率	`Payload / (Payload + Header)`	分析 flit 结构	NVLink 256B payload: 94.1%；小消息下显著下降

文档导航

文档	内容
01-nvlink.md	NVLink 协议规格、Flit 结构、带宽效率
02-nvswitch-nvls.md	NVSwitch 交换架构、NVLS 网内计算
03-infiniband.md	InfiniBand HDR/NDR/XDR 规格、RDMA 传输
04-roce.md	RoCE v1/v2 协议栈、拥塞控制
05-pcie.md	PCIe 代际规格、基线角色
06-amd-xgmi.md	AMD xGMI/Infinity Fabric、MI300X 互联
07-google-ici.md	Google TPU ICI、Torus/Mesh 拓扑
08-国产互联.md	HCCS、PAXI、SG2262 C2C 等国产技术

详细的性能建模方法见 06-通信性能建模。

名词定义​

主要互联技术对比​

代际演进时间线​

NVLink 代际带宽演进（每 GPU 双向）​

InfiniBand 代际演进​

Google TPU ICI 演进​

PCIe 代际演进​

在大模型集群中的角色​

关键性能指标​

文档导航​