跳到主要内容

互联硬件技术总览

本文从横向视角梳理 AI 芯片互联技术的分类、代际演进与在大模型集群中的分层角色,作为后续各专题文档的导航入口。

互联技术分类总览

名词定义

名词定义
节点内互联(Intra-node Interconnect)同一服务器或机箱内芯片之间的直接互联,带宽通常为数百 GB/s,代表技术有 NVLink、xGMI、ICI、HCCS
节点间网络(Inter-node Network)跨服务器的网络互联,带宽通常为数十 GB/s,代表技术有 InfiniBand、RoCEv2
双向带宽(Bidirectional Bandwidth)链路同时收发的聚合带宽,等于单向带宽的两倍,NVLink 通常以此口径报告
单端口线速(Port Line Rate)交换机或网卡单个物理端口在全速状态下的数据传输速率,节点间网络以此口径报告
RDMA(Remote Direct Memory Access)绕过 CPU 直接在两台机器内存间传输数据的技术,显著降低延迟和 CPU 占用,InfiniBand 和 RoCEv2 均基于此
Flit(Flow Control Unit)链路层流量控制的最小单元,一个数据包由多个 flit 组成,flit 大小决定协议效率
协议效率(Protocol Efficiency)有效载荷占总传输数据(含协议头)的比例,消息越小效率越低
BusBW(Bus Bandwidth)nccl-tests 报告的总线带宽,按 Ring 算法流量因子 $2(N-1)/N$ 折算,便于跨规模比较
片内互联(Die-to-Die Interconnect)同一芯片封装内多个裸片之间的互联,带宽为 TB/s 级,对用户透明,代表技术有 AMD xGMI(MI300X 内部)、SG2262 D2D

主要互联技术对比

节点内互联和节点间网络属于不同层级,带宽口径不同,不可直接横比。

节点内互联(同一服务器/机箱内,每芯片聚合双向带宽)

技术厂商适用层级带宽范围(双向,每芯片)代表产品
NVLink 5.0NVIDIA节点内1800 GB/sB200 / GB200 NVL72
NVLink 4.0NVIDIA节点内900 GB/sH100 / H200
NVLink 3.0NVIDIA节点内600 GB/sA100
xGMI / Infinity FabricAMD节点内896 GB/sMI300X
ICI (Ironwood/TPU7x)Google节点内+跨机架~1200 GB/sTPU7x
ICI (TPU v4)Google节点内+跨机架~576 GB/sTPU v4
Gaudi 3 RoCEIntel节点内+跨节点600 GB/sGaudi 3
HCCS (910B)华为节点内~400-560 GB/s(估)昇腾 910B
PCIe Gen5 x16通用CPU-加速卡126 GB/s基线参考
PCIe Gen4 x16通用CPU-加速卡63 GB/s基线参考

节点间网络(跨服务器,单端口线速)

技术适用层级单端口带宽延迟代表部署
InfiniBand XDR节点间800 Gbps (~100 GB/s)~1-2 usDGX B200
InfiniBand NDR节点间400 Gbps (~50 GB/s)~1-2 usDGX H100
InfiniBand HDR节点间200 Gbps (~25 GB/s)~1-2 usDGX A100
RoCEv2 (400GbE)节点间400 Gbps (~50 GB/s)~2-5 usMeta 24K GPU 集群

代际演进时间线

年份代际GPU双向带宽增幅
2016NVLink 1.0P100160 GB/s基线
2017NVLink 2.0V100300 GB/s1.9x
2020NVLink 3.0A100600 GB/s2.0x
2022NVLink 4.0H100 / H200900 GB/s1.5x
2024NVLink 5.0B200 / GB2001800 GB/s2.0x

8 年间 NVLink 带宽增长约 11 倍,每代大致翻倍。

InfiniBand 代际演进

年份代际每端口线速典型部署
2019HDR200 GbpsDGX A100
2022NDR400 GbpsDGX H100
2025XDR800 GbpsDGX B200
~2027GDR(预期)1.6 Tbps下一代

Google TPU ICI 演进

年份代际每芯片 ICI 带宽拓扑Pod 规模
2017TPU v2~500 Gbps (4 链路)2D Torus256 chips
2018TPU v3~656 Gbps (6 链路)2D Torus1024 chips
2022TPU v4~4.8 Tbps (6 链路)3D Torus4096 chips
2023TPU v5p~4.8 Tbps3D Torus8960 chips
2025Ironwood (TPU7x)~9.6 Tbps (1200 GB/s)3D mesh(direct-neighbor)9216 chips

PCIe 代际演进

代际单向带宽 (x16)双向带宽典型场景
PCIe Gen3 x1615.75 GB/s31.5 GB/s旧 GPU(V100 PCIe)
PCIe Gen4 x1631.5 GB/s63 GB/sA100 PCIe、H20
PCIe Gen5 x1663 GB/s126 GB/sH100 PCIe、B200 PCIe
PCIe Gen6 x16~128 GB/s~256 GB/s下一代(待商用)

在大模型集群中的角色

大模型系统的互联需求按物理层级划分,各层性能差异决定了哪种并行策略最优:

层级 1: 片内互联(Die-to-Die)
带宽: TB/s 级 | 延迟: ns 级
例: AMD MI300X chiplet 间 xGMI,SG2262 Die-to-Die
角色: 单芯片内的裸片间数据搬运,对用户透明

层级 2: 节点内互联(Chip-to-Chip,同一服务器)
带宽: 数百 GB/s | 延迟: 1-2 us
例: NVLink 4.0/5.0,xGMI,ICI,HCCS,PAXI
角色: Tensor Parallelism(TP)的主要通信层;AllReduce 延迟敏感

层级 3: 机架内跨节点(Node-to-Node,同 Rack)
带宽: 数十 GB/s | 延迟: 2-5 us
例: InfiniBand NDR/XDR,RoCEv2
角色: Pipeline Parallelism(PP)的 P2P 通信;Data Parallelism(DP)梯度同步

层级 4: 跨机架/跨 Pod(Rack-to-Rack,Pod-to-Pod)
带宽: 数十 GB/s(受交换机瓶颈) | 延迟: 5-20 us
例: IB Fat-tree,RoCE Spine
角色: Expert Parallelism(EP)的 AllToAll;大规模 DP 梯度同步

关键洞察:同一 GPU 在不同互联条件下,集合通信性能可以相差 10 倍以上。选择正确的并行策略,核心是尽量让通信量大的操作(TP AllReduce)落在带宽最高的层级(节点内互联)。

关键性能指标

指标定义测量工具说明
BusBWAlgBW × 2(N-1)/N,nccl-tests 报告的总线带宽nccl-tests按 Ring 算法流量因子折算,便于跨规模比较
AlgBWMessageSize / Time,不含流量因子的原始算法带宽nccl-tests反映实际端到端吞吐
线速利用率AlgBW / 物理线速计算衡量协议和软件效率;NVLink 大消息可达 93-106%
单跳延迟单次数据包从发送到接收的时间ping/RDMA lat testNVLink: ~1-2 us;IB NDR: ~1-2 us;RoCE: ~2-5 us
协议效率Payload / (Payload + Header)分析 flit 结构NVLink 256B payload: 94.1%;小消息下显著下降

文档导航

文档内容
01-nvlink.mdNVLink 协议规格、Flit 结构、带宽效率
02-nvswitch-nvls.mdNVSwitch 交换架构、NVLS 网内计算
03-infiniband.mdInfiniBand HDR/NDR/XDR 规格、RDMA 传输
04-roce.mdRoCE v1/v2 协议栈、拥塞控制
05-pcie.mdPCIe 代际规格、基线角色
06-amd-xgmi.mdAMD xGMI/Infinity Fabric、MI300X 互联
07-google-ici.mdGoogle TPU ICI、Torus/Mesh 拓扑
08-国产互联.mdHCCS、PAXI、SG2262 C2C 等国产技术

详细的性能建模方法见 06-通信性能建模