跳到主要内容

通信性能建模总览

LLM 分布式推理中，TP/PP/EP 等并行策略的集合通信延迟直接决定端到端吞吐和 MFU。通信性能建模的目标是在不运行真实作业的前提下，用代数公式快速预测给定拓扑和消息大小下的通信耗时，为集群设计和并行策略选择提供定量依据。

名词定义

名词	定义
α-β 模型	将通信延迟分解为固定启动开销 α（latency）和带宽相关项 $M/\beta$（$M$ 为消息大小，$\beta$ 为有效带宽）的线性公式（Hockney 1994）
α（启动延迟）	发送一条消息的固定开销，包含协议握手、DMA 启动、NIC 驱动等，与消息大小无关
β（有效带宽）	模型中单位数据的传输时间，从实测数据拟合得出，通常低于物理链路线速
RMSPE（Root Mean Square Percentage Error）	均方根百分比误差，用于衡量模型预测值与实测值的整体偏差，目标通常 < 10%
nccl-tests	NVIDIA 开源的 NCCL 性能评测工具，输出 AlgBW 和 BusBW，是标定 α、β 参数的主要实测数据来源
多跳延迟（Multi-hop Latency）	报文经过多个交换机转发时，每跳的 α 累加，同时受瓶颈链路带宽限制
参数标定（Parameter Calibration）	从真实 nccl-tests 实测数据中拟合有效 α、β 的过程；规格书峰值参数不等于端到端有效值
瓶颈带宽（Bottleneck Bandwidth）	通信路径上带宽最小的那条链路的实际可用带宽，决定多跳通信的吞吐上限

建模流水线

本目录 6 篇文档形成一条完整的建模链路，每一步的输出是下一步的输入：

01-alpha-beta模型          →  02-扩展模型               →  03-算法延迟公式
建立点对点延迟基础公式           PLogP/LoGPC/Fluid 竞争修正       将基础公式扩展到各类集合通信
（α 物理分解、β S 曲线、           （消除参数常数假设和              （AllReduce/AllToAll/AllGather）
 LogP/LogGP）                    链路独占假设）
                                                               |
                                                               v
04-多跳拓扑建模          ←────────────────────────────────────
将单跳公式推广到多层分层拓扑
（多跳 α 累加、瓶颈带宽）
         |
         v
05-参数标定
从 nccl-tests 实测数据拟合有效 α、β
（规格书峰值 ≠ 端到端有效值）
         |
         v
06-精度验证
在单层/两层拓扑上回测预测误差
（RMSPE 目标 < 10%）

横向对比

建模阶段	适用范围	计算速度	典型误差	主要局限
α-β 基础模型（点对点）	单跳 P2P 通信	微秒级计算	5–15%	不含交换机排队/竞争
算法延迟公式（集合通信）	AllReduce/AllToAll/AllGather，单层网络	微秒级计算	10–30%	假设链路无竞争、负载均衡
多跳拓扑建模	跨层分层网络（节点内+节点间）	微秒级计算	10–25%	依赖分层边界划分是否准确
参数标定后的完整模型	已有实测数据的互联类型	微秒级计算	5–15%（大消息）	需要同类型互联的 nccl-tests 数据
精度验证通过后的生产模型	LLM TP/PP 通信，消息 > 64 MB	微秒级计算	< 10% RMSPE	小消息（< 1 MB）误差可达 50%+

文档导航

文档	内容
01-alpha-beta模型	α-β 模型基础公式、α 物理分解与协议切换、β S 曲线、LogP/LogGP
02-扩展模型	PLogP 参数函数化、LoGPC 静态竞争建模、Fluid/Network Calculus 对比、误差消除链
03-算法延迟公式	AllReduce / AllToAll / AllGather / ReduceScatter 各算法的 α-β 公式推导与对比
04-多跳拓扑建模	多跳 α 累加、cut-through 优化、分层带宽瓶颈建模
05-参数标定	从 nccl-tests 数据拟合有效 α、β 的流程与注意事项
06-精度验证	单层/两层拓扑回测结果、误差分析、已知精度边界

名词定义
建模流水线
横向对比
文档导航