通信性能建模总览
LLM 分布式推理中,TP/PP/EP 等并行策略的集合通信延迟直接决定端到端吞吐和 MFU。通信性能建模的目标是在不运行真实作业的前提下,用代数公式快速预测给定拓扑和消息大小下的通信耗时,为集群设计和并行策略选择提供定量依据。
名词定义
| 名词 | 定义 |
|---|---|
| α-β 模型 | 将通信延迟分解为固定启动开销 α(latency)和带宽相关项 $M/\beta$($M$ 为消息大小,$\beta$ 为有效带宽)的线性公式(Hockney 1994) |
| α(启动延迟) | 发送一条消息的固定开销,包含协议握手、DMA 启动、NIC 驱动等,与消息大小无关 |
| β(有效带宽) | 模型中单位数据的传输时间,从实测数据拟合得出,通常低于物理链路线速 |
| RMSPE(Root Mean Square Percentage Error) | 均方根百分比误差,用于衡量模型预测值与实测值的整体偏差,目标通常 < 10% |
| nccl-tests | NVIDIA 开源的 NCCL 性能评测工具,输出 AlgBW 和 BusBW,是标定 α、β 参数的主要实测数据来源 |
| 多跳延迟(Multi-hop Latency) | 报文经过多个交换机转发时,每跳的 α 累加,同时受瓶颈链路带宽限制 |
| 参数标定(Parameter Calibration) | 从真实 nccl-tests 实测数据中拟合有效 α、β 的过程;规格书峰值参数不等于端到端有效值 |
| 瓶颈带宽(Bottleneck Bandwidth) | 通信路径上带宽最小的那条链路的实际可用带宽,决定多跳通信的吞吐上限 |
建模流水线
本目录 6 篇文档形成一条完整的建模链路,每一步的输出是下一步的输入:
01-alpha-beta模型 → 02-扩展模型 → 03-算法延迟公式
建立点对点延迟基础公式 PLogP/LoGPC/Fluid 竞争修正 将基础公式扩展到各类集合通信
(α 物理分解、β S 曲线、 (消除参数常数假设和 (AllReduce/AllToAll/AllGather)
LogP/LogGP) 链路独占假设)
|
v
04-多跳拓扑建模 ←────────────────────────────────────
将单跳公式推广到多层分层拓扑
(多跳 α 累加、瓶颈带宽)
|
v
05-参数标定
从 nccl-tests 实测数据拟合有效 α、β
(规格书峰值 ≠ 端到端有效值)
|
v
06-精度验证
在单层/两层拓扑上回测预测误差
(RMSPE 目标 < 10%)
横向对比
| 建模阶段 | 适用范围 | 计算速度 | 典型误差 | 主要局限 |
|---|---|---|---|---|
| α-β 基础模型(点对点) | 单跳 P2P 通信 | 微秒级计算 | 5–15% | 不含交换机排队/竞争 |
| 算法延迟公式(集合通信) | AllReduce/AllToAll/AllGather,单层网络 | 微秒级计算 | 10–30% | 假设链路无竞争、负载均衡 |
| 多跳拓扑建模 | 跨层分层网络(节点内+节点间) | 微秒级计算 | 10–25% | 依赖分层边界划分是否准确 |
| 参数标定后的完整模型 | 已有实测数据的互联类型 | 微秒级计算 | 5–15%(大消息) | 需要同类型互联的 nccl-tests 数据 |
| 精度验证通过后的生产模型 | LLM TP/PP 通信,消息 > 64 MB | 微秒级计算 | < 10% RMSPE | 小消息(< 1 MB)误差可达 50%+ |
文档导航
| 文档 | 内容 |
|---|---|
| 01-alpha-beta模型 | α-β 模型基础公式、α 物理分解与协议切换、β S 曲线、LogP/LogGP |
| 02-扩展模型 | PLogP 参数函数化、LoGPC 静态竞争建模、Fluid/Network Calculus 对比、误差消除链 |
| 03-算法延迟公式 | AllReduce / AllToAll / AllGather / ReduceScatter 各算法的 α-β 公式推导与对比 |
| 04-多跳拓扑建模 | 多跳 α 累加、cut-through 优化、分层带宽瓶颈建模 |
| 05-参数标定 | 从 nccl-tests 数据拟合有效 α、β 的流程与注意事项 |
| 06-精度验证 | 单层/两层拓扑回测结果、误差分析、已知精度边界 |