跳到主要内容

通信性能建模总览

LLM 分布式推理中,TP/PP/EP 等并行策略的集合通信延迟直接决定端到端吞吐和 MFU。通信性能建模的目标是在不运行真实作业的前提下,用代数公式快速预测给定拓扑和消息大小下的通信耗时,为集群设计和并行策略选择提供定量依据。

名词定义

名词定义
α-β 模型将通信延迟分解为固定启动开销 α(latency)和带宽相关项 $M/\beta$$M$ 为消息大小,$\beta$ 为有效带宽)的线性公式(Hockney 1994)
α(启动延迟)发送一条消息的固定开销,包含协议握手、DMA 启动、NIC 驱动等,与消息大小无关
β(有效带宽)模型中单位数据的传输时间,从实测数据拟合得出,通常低于物理链路线速
RMSPE(Root Mean Square Percentage Error)均方根百分比误差,用于衡量模型预测值与实测值的整体偏差,目标通常 < 10%
nccl-testsNVIDIA 开源的 NCCL 性能评测工具,输出 AlgBW 和 BusBW,是标定 α、β 参数的主要实测数据来源
多跳延迟(Multi-hop Latency)报文经过多个交换机转发时,每跳的 α 累加,同时受瓶颈链路带宽限制
参数标定(Parameter Calibration)从真实 nccl-tests 实测数据中拟合有效 α、β 的过程;规格书峰值参数不等于端到端有效值
瓶颈带宽(Bottleneck Bandwidth)通信路径上带宽最小的那条链路的实际可用带宽,决定多跳通信的吞吐上限

建模流水线

本目录 6 篇文档形成一条完整的建模链路,每一步的输出是下一步的输入:

01-alpha-beta模型          →  02-扩展模型               →  03-算法延迟公式
建立点对点延迟基础公式 PLogP/LoGPC/Fluid 竞争修正 将基础公式扩展到各类集合通信
(α 物理分解、β S 曲线、 (消除参数常数假设和 (AllReduce/AllToAll/AllGather)
LogP/LogGP) 链路独占假设)
|
v
04-多跳拓扑建模 ←────────────────────────────────────
将单跳公式推广到多层分层拓扑
(多跳 α 累加、瓶颈带宽)
|
v
05-参数标定
从 nccl-tests 实测数据拟合有效 α、β
(规格书峰值 ≠ 端到端有效值)
|
v
06-精度验证
在单层/两层拓扑上回测预测误差
(RMSPE 目标 < 10%)

横向对比

建模阶段适用范围计算速度典型误差主要局限
α-β 基础模型(点对点)单跳 P2P 通信微秒级计算5–15%不含交换机排队/竞争
算法延迟公式(集合通信)AllReduce/AllToAll/AllGather,单层网络微秒级计算10–30%假设链路无竞争、负载均衡
多跳拓扑建模跨层分层网络(节点内+节点间)微秒级计算10–25%依赖分层边界划分是否准确
参数标定后的完整模型已有实测数据的互联类型微秒级计算5–15%(大消息)需要同类型互联的 nccl-tests 数据
精度验证通过后的生产模型LLM TP/PP 通信,消息 > 64 MB微秒级计算< 10% RMSPE小消息(< 1 MB)误差可达 50%+

文档导航

文档内容
01-alpha-beta模型α-β 模型基础公式、α 物理分解与协议切换、β S 曲线、LogP/LogGP
02-扩展模型PLogP 参数函数化、LoGPC 静态竞争建模、Fluid/Network Calculus 对比、误差消除链
03-算法延迟公式AllReduce / AllToAll / AllGather / ReduceScatter 各算法的 α-β 公式推导与对比
04-多跳拓扑建模多跳 α 累加、cut-through 优化、分层带宽瓶颈建模
05-参数标定从 nccl-tests 数据拟合有效 α、β 的流程与注意事项
06-精度验证单层/两层拓扑回测结果、误差分析、已知精度边界