扩展模型：PLogP、LoGPC 与竞争修正

基础 $\alpha$-$\beta$ 模型和 LogP/LogGP 模型假设参数为常数且链路无竞争。当这些假设不成立时，需要引入扩展模型。本文覆盖三个方向：参数函数化（PLogP）、静态竞争建模（LoGPC）、以及多种竞争修正方法的对比。

PLogP 模型：参数函数化

模型定义

PLogP 模型由 Kielmann 等人于 2000 年提出（来源：Kielmann et al., IPDPS 2000），核心思想是将 LogP/LogGP 的常数参数替换为消息大小的函数：

$\text{LogP: } (L, o, g) \quad \to \quad \text{PLogP: } (L(m), o_s(m), o_r(m), g(m))$

其中：

$o_s(m)$：发送大小为 $m$ 的消息的 CPU 开销
$o_r(m)$：接收大小为 $m$ 的消息的 CPU 开销
$g(m)$：大小为 $m$ 的消息的间隔（gap）
$L(m)$：网络延迟（通常对消息大小不敏感，可近似常数）

与 $\alpha$-$\beta$ 参数深化的关系：01-alpha-beta模型中的 $\alpha(n)$ 分段函数和 $\beta(n)$ S 曲线在 $\alpha$-$\beta$ 框架内处理参数非线性；PLogP 在 LogP 框架内做同样的事——将 $o$ 和 $g$ 函数化。两条路径解决同一类问题，但数学表达和测量方法不同。

参数函数的典型形态

$g(m)$ 的分段函数（捕捉协议切换）：

$g(m) = \begin{cases} g_0 & m \leq m_{\text{eager}} \\ g_0 + \alpha_{\text{RTT}} & m_{\text{eager}} < m \leq m_{\text{rdvz}} \\ g_0 + \alpha_{\text{RTT}} + (m - m_{\text{rdvz}}) \cdot G & m > m_{\text{rdvz}} \end{cases}$

这本质上捕捉了 Eager/Rendezvous/Pipeline 协议切换效应。

$o(m)$ 的线性增长：

$o(m) \approx o_0 + c \cdot m$

消息越大，CPU 需要处理的头部/校验/缓冲区操作越多。$o_0$ 是固定开销，$c$ 是每字节的 CPU 处理时间。

测量方法

PLogP 需要对多个消息大小分别测量，拟合参数函数（来源：Kielmann et al., IPDPS 2000）：

选取消息大小序列 $m_1, m_2, \ldots, m_K$（对数间隔，覆盖 1B 到 16MB）
对每个 $m_i$，执行 ping-pong 测量得到 RTT($m_i$)
对每个 $m_i$，执行连续发送测量得到 $g(m_i)$
计算 $o(m_i) = \text{RTT}(m_i)/2 - L(m_i)$
对测量点拟合分段线性或多项式函数

测量复杂度对比：

模型	需要的测量数	拟合参数数
$\alpha$-$\beta$	2（$\alpha$ + $\beta$）	2
LogP	3（$L$ + $o$ + $g$）	3
LogGP	4（$L$ + $o$ + $g$ + $G$）	4
PLogP	$3K$（每个消息大小 3 次测量）	$3 \times$ 函数参数数

PLogP 的测量成本约为 LogP 的 $K$ 倍（$K$ 通常取 20-50 个消息大小点）。

精度与代价

PLogP 在协议切换区域（Eager/Rendezvous 边界附近）将误差从 30-50% 降至 5-10%。代价：

测量成本高，需对每种硬件配置做完整的消息大小扫描
可移植性差，换一个 NCCL 版本可能就需要重新测量
参数函数使得集合通信公式不再有闭式解，需要数值计算

对大消息（BW-bound regime），改善与 LogGP 相当。

LoGPC 模型：静态竞争建模

竞争的分类

前面所有模型（$\alpha$-$\beta$、LogP/LogGP、PLogP）都假设每条消息独占通信链路。多流共享链路时，有效带宽降低但模型无法体现——导致严重低估实际延迟。

类型	定义	可否在分析模型中处理
静态竞争	由并行策略和拓扑结构决定的确定性并发流数	可以
动态拥塞	拥塞控制算法（DCQCN/HPCC）的瞬态行为	不可以（需包级仿真）

模型定义

LoGPC 模型由 Moritz 和 Frank 于 2001 年提出（来源：Moritz & Frank, IEEE TPDS 2001），在 LogGP 基础上增加静态竞争参数 $C$。

核心修改——将 $G$ 替换为 $G_{\text{eff}}$：

$G_{\text{eff},i} = G \cdot \max(1, F_i / C_i)$

其中：

$F_i$：链路 $i$ 上的并发通信流数
$C_i$：链路 $i$ 的通道容量（可同时服务的流数，全双工链路 $C_i = 2$）

等价地用带宽表示：

$\beta_{\text{eff},i} = \frac{\beta_i}{\max(1, F_i / C_i)}$

Ring AllReduce 在 LoGPC 下的公式

$T_{\text{LoGPC-Ring-AR}} = 2\left[(2o + L + \frac{M}{N} G_{\text{eff}}) + (N-2) \cdot \max\left(o, g, \frac{M}{N} G_{\text{eff}}\right)\right]$

若物理拓扑是 NVSwitch 全连接（每对节点间有独立物理链路），则 $F_i = 1$（无竞争），退化为标准 LogGP。若物理拓扑是 Fat-tree 且多条逻辑流共享上行链路，有效带宽按竞争因子缩减。

静态竞争因子的计算

给定并行策略和物理拓扑，$F_i$ 可通过以下步骤精确计算：

枚举通信对：根据集合通信算法（Ring/Tree），列出每步的所有 send/recv 对
路由映射：每个 send/recv 对经过的物理链路路径（Dijkstra 最短路径或 ECMP 多路径）
链路流量统计：对每条物理链路，统计同一时间步上经过的通信流数
取最大值：$F_i = \max_{\text{step}} F_{i,\text{step}}$

三种竞争修正方法对比

除 LoGPC 外，还有两种理论工具可以处理竞争问题。

Network Calculus（确定性上界）

Network Calculus（来源：Le Boudec & Thiran, LNCS 2050, 2001）提供确定性延迟上界而非平均值。

核心工具是到达曲线（arrival curve）和服务曲线（service curve）。对突发-速率约束的流（leaky bucket）：

$\alpha_{\text{NC}}(t) = \sigma + \rho t$

Rate-latency 服务器的延迟上界：

$d_{\max} = T + \frac{\sigma}{R}$

级联定理使多跳分析可组合：$R_{\text{total}} = \min(R_1, \ldots, R_h)$，$T_{\text{total}} = T_1 + \cdots + T_h$。

局限：上界可能过于保守，与实际差距 2-5 倍。

排队论修正（M/D/1 模型）

使用 M/D/1 排队模型（来源：Bertsekas & Gallager, "Data Networks", 1992）估计交换机端口的平均排队延迟：

$W_q = \frac{\rho}{2(1-\rho)} \cdot \frac{1}{\mu}$

其中 $\rho = \lambda / \mu$ 为链路利用率。修正方式是在 $\alpha$ 的物理分解中增加排队分量：$\alpha_{\text{switch},i} \to \alpha_{\text{switch},i} + W_{q,i}$。

适用条件：到达模式近似 Poisson 且利用率 $\rho < 0.8$。集合通信的流量是确定性的，M/D/1 只是近似。

Fluid 模型（连续流近似）

Fluid 模型将离散数据包抽象为连续流体，用 max-min 公平性分配共享链路带宽（来源：SimAI Analytical 模式的核心思想，SimAI, NSDI'25）。

对共享链路 $i$（容量 $C_i$）上的 $F_i$ 条流，简化形式（所有流需求相同时）：

$\beta_{\text{eff}} = C_i / F_i$

与 LoGPC 的 $\beta_{\text{eff}}$ 一致。异构流场景下，Fluid 模型通过迭代 max-min 公平分配提供更精确的结果。

方法对比

方法	输出	精度	计算复杂度	适用场景
LoGPC	平均延迟	中（5-10%）	$O(1)$	均匀流、初步估算
Network Calculus	最坏延迟上界	保守（实际可能好 2-5x）	$O(h)$	实时性保证、SLA
排队论 M/D/1	平均排队延迟	中（$\rho < 0.8$ 有效）	$O(1)$	交换机局部分析
Fluid max-min	稳态带宽分配	较高（5-15%）	$O(F \cdot E)$	复杂拓扑、异构流

误差消除链总结

从最简单的 $\alpha$-$\beta$ 出发，每引入一个扩展消除一类误差：

基础 alpha-beta
  |  误差: 30-50% (小消息), 5-30% (大消息)
  |  来源: 假设 1-5 全部生效
  v
参数深化: alpha 物理分解 + 分层合成 + beta S 曲线
  |  消除: 假设 1 (alpha 为常数), 假设 2 (beta 为常数), 假设 4 (同构网络)
  |  残余误差: 5-20%
  v
LogP/LogGP: 分离 CPU 开销          PLogP: 参数函数化
  |  消除: 假设 5 (无软件开销)        |  消除: 假设 1-2 (LogP 框架内)
  |  残余误差: 5-15%                 |  残余误差: 5-10%
  v                                  v
LoGPC / Fluid: 静态竞争建模
  |  消除: 假设 3 (无竞争) 的静态部分
  |  残余误差: 5-15%
  v
[理论天花板] ---- 动态拥塞 ---- 需要包级仿真 (NS-3)

精度 vs 复杂度对比表

模型	参数数	测量复杂度	典型误差	适用场景
$\alpha$-$\beta$	2	低	5-50%	快速估算、设计空间探索
$\alpha(n)$-$\beta(n)$	4-6	中	5-20%	跨协议消息大小范围
LogP	3	中	10-30%	CPU 瓶颈诊断
LogGP	4	中	5-15%	大消息 + CPU 开销分析
PLogP	$3K$	高	5-10%	精确 profile、单一硬件
LoGPC	5+	高	5-15%	多流竞争场景
Fluid max-min	依拓扑	高	5-10%	复杂拓扑、异构流

模型选择决策树

需要通信延迟预测
  |
  +-- 有实测数据？
  |     |
  |     +-- 是 --> 消息大小跨越协议切换阈值？
  |     |            |
  |     |            +-- 是 --> PLogP 或 alpha(n)-beta(n)
  |     |            +-- 否 --> 主要是大消息？
  |     |                         |
  |     |                         +-- 是 --> 多流共享链路？
  |     |                         |           |
  |     |                         |           +-- 是 --> LoGPC / Fluid
  |     |                         |           +-- 否 --> LogGP 或 alpha-beta
  |     |                         +-- 否 --> CPU 开销可能成为瓶颈？
  |     |                                      |
  |     |                                      +-- 是 --> LogP
  |     |                                      +-- 否 --> alpha-beta
  |     |
  |     +-- 否 --> 有硬件 datasheet？
  |                  |
  |                  +-- 是 --> alpha 物理分解 + beta 从链路速率估算
  |                  +-- 否 --> 从相似硬件外推 + 理论上下界
  |
  +-- 需要最坏情况保证？
        |
        +-- 是 --> Network Calculus
        +-- 否 --> 以上模型选最合适的

参考文献

Kielmann et al., "Fast Measurement of LogP Parameters for Message Passing Platforms", IPDPS 2000 - PLogP 模型
Moritz & Frank, "LoGPC: Modeling Network Contention in Message-Passing Programs", IEEE TPDS 2001 - LoGPC 模型
Le Boudec & Thiran, "Network Calculus", LNCS 2050, 2001 - Network Calculus
Bertsekas & Gallager, "Data Networks", 1992 - 排队论基础
SimAI, NSDI'25 - Fluid max-min 实践

PLogP 模型：参数函数化​

模型定义​

参数函数的典型形态​

测量方法​

精度与代价​

LoGPC 模型：静态竞争建模​

竞争的分类​

模型定义​

Ring AllReduce 在 LoGPC 下的公式​

静态竞争因子的计算​

三种竞争修正方法对比​

Network Calculus（确定性上界）​

排队论修正（M/D/1 模型）​

Fluid 模型（连续流近似）​

方法对比​

误差消除链总结​

精度 vs 复杂度对比表​

模型选择决策树​

参考文献​

PLogP 模型：参数函数化

模型定义

参数函数的典型形态

测量方法

精度与代价

LoGPC 模型：静态竞争建模

竞争的分类

模型定义

Ring AllReduce 在 LoGPC 下的公式

静态竞争因子的计算

三种竞争修正方法对比

Network Calculus（确定性上界）

排队论修正（M/D/1 模型）

Fluid 模型（连续流近似）

方法对比

误差消除链总结

精度 vs 复杂度对比表

模型选择决策树

参考文献