跳到主要内容

Tier6+大模型部署推理建模平台

type: 修订记录
| 版本号 | 修订日期 | 作者 | 修订内容 |
| ------ | ---------- | ---------- | ---------------------------------------------------------------- |
| 1.0 | 2026.02.27 | 李想 | 首次制作 |

总则

目的

  • 本文档为 Tier6+大模型部署推理建模平台(以下简称"平台")的标准操作检查规程。旨在为平台使用者提供完整的操作指南,使读者在无其他参考资料的情况下,能够独立完成从环境搭建到评估结果解读的全部操作流程,确保各项功能正确使用,评估结果可信、可复现。

适用范围

  • 适用于使用本平台进行以下工作的工程师和研究人员:
    • 配置 LLM 推理部署拓扑(芯片、互联、层级结构)
    • 执行性能仿真与成本评估(Prefill/Decode 阶段)
    • 分析和对比不同部署方案(并行策略、芯片数量)
    • 管理实验数据(导入/导出/对比)

名词定义

  • 平台涉及的主要术语和缩写定义如下:

    缩写/术语全称含义
    TPTensor Parallelism张量并行,将单个算子拆分到多个芯片上并行计算
    PPPipeline Parallelism流水线并行,将模型不同层分配到不同芯片
    DPData Parallelism数据并行,不同芯片处理不同批次的数据
    EPExpert Parallelism专家并行,MoE 模型中将不同专家分配到不同芯片
    SPSequence Parallelism序列并行,将输入序列拆分到多个芯片处理
    MoEMixture of Experts混合专家模型,每个 token 仅激活部分专家
    MLAMulti-head Latent Attention多头潜在注意力,DeepSeek 系列使用的 KV 缓存压缩技术
    TPSTokens Per Second每秒输出 token 数,衡量推理吞吐量
    MFUModel FLOPS Utilization模型算力利用率,实际使用算力 / 峰值算力
    MBUMemory Bandwidth Utilization内存带宽利用率,实际带宽使用 / 峰值带宽
    PrefillPrefill Phase预填充阶段,处理输入 prompt 的阶段
    DecodeDecode Phase解码阶段,逐 token 生成输出的阶段
    AllReduceAll-Reduce集合通信操作,所有节点参与归约并广播结果
    AllToAllAll-to-All集合通信操作,所有节点间交换数据(用于 MoE 专家路由)
    BenchmarkBenchmark Configuration基准测试配置,定义模型 + 推理参数的组合
    TopologyNetwork Topology网络拓扑,描述芯片间的物理连接和层级结构
    Gantt ChartGantt Chart甘特图,展示仿真过程中各阶段的时间线
    RooflineRoofline Model屋顶线模型,分析算力与带宽的瓶颈关系

平台使用全流程总览

  • 完整的评估流程分为以下步骤:
    • 环境搭建:安装依赖、启动前后端服务(首次使用时执行)。
    • 配置互联拓扑:在「互联拓扑」页面配置目标硬件的层级结构、芯片型号和互联参数。
    • 配置评估任务:在「部署分析」页面选择模型预设、推理参数、并行策略,设置分析选项。
    • 执行评估:提交评估任务,等待仿真计算完成。
    • 查看与分析结果:在分析结果区域或「结果管理」页面查看 KPI 指标与可视化图表,对比多方案。
    • 导出数据:将实验结果导出为 JSON 文件留存或在团队间共享。

环境搭建

系统要求

  • 平台的系统最低运行要求如下:

    项目最低要求
    操作系统Windows 10/11、Linux (Ubuntu 20.04+)
    Python3.10+
    Node.js18+
    包管理器pip(Python)、pnpm(前端)
    浏览器Chrome 90+ / Edge 90+(推荐使用 Chrome)
    端口3100(前端)、8003(后端)需可用
  • 注意:启动前请确认 3100 和 8003 端口未被其他程序占用。若端口冲突,需修改 frontend/.env 中的 VITE_API_PORT 配置项,并相应修改后端启动参数。

安装步骤

  • 后端依赖安装

    • 进入项目根目录,安装 Python 依赖:

      pip install -r requirements.txt
    • 安装成功验证:所有依赖包无 ERROR 完成安装(WARNING 可忽略)。若出现版本冲突,建议在 Python 虚拟环境(venv 或 conda)中安装。

  • 前端依赖安装

    • 进入前端目录,安装 Node.js 依赖:

      cd frontend
      pnpm install
    • 安装成功验证:node_modules 目录生成,无 ERR 错误输出。

    • 注意:前端使用 pnpm 而非 npm 或 yarn。若未安装 pnpm,先执行 npm install -g pnpm 安装。

启动平台

  • 首次启动(含依赖安装)

    • 执行以下命令:

      # Linux/Mac
      ./start.sh --setup

      # Windows
      start.bat --setup
    • 启动脚本执行流程:

      • 检查后端 Python 依赖(requirements.txt),若未安装则自动安装。
      • 启动后端服务(FastAPI + Uvicorn,端口 8003)。
      • 检查前端 Node.js 依赖,若未安装则自动执行 pnpm install
      • 启动前端开发服务器(Vite,端口 3100)。
      • 自动在默认浏览器打开 http://localhost:3100
  • 日常启动

    • 执行以下命令:

      # Linux/Mac
      ./start.sh

      # Windows
      start.bat
    • 启动后同时运行后端(8003 端口)和前端(3100 端口)。

    • 关闭服务:关闭后端和前端各自的命令行窗口即可停止服务。

启动验证

  • 启动完成后,按以下步骤验证平台正常运行:
    • 浏览器访问 http://localhost:3100,应看到平台概览页面(Dashboard)。
    • 左侧导航栏应显示完整菜单:概览、互联拓扑、部署分析、结果管理、知识网络。
    • 浏览器访问 http://localhost:8003/docs,应显示 FastAPI 自动生成的 Swagger API 文档页面,API 端点列表非空(说明后端路由注册正常)。
    • 点击「部署分析」,左侧 Benchmark 配置卡片中的预设下拉框应能成功加载预设列表(非空)。
  • 若步骤 4 中预设列表为空或加载失败,说明后端服务未正常启动,检查后端命令行窗口的错误日志。

平台概述

界面布局

  • 平台整体界面布局

  • 平台采用左侧导航 + 右侧主内容区的双栏布局:

    • 左侧导航栏:固定在页面左侧,包含 5 个功能模块入口。支持折叠/展开操作,展开宽度 180px,折叠宽度 64px。折叠时,鼠标悬停菜单项会显示 tooltip 提示。导航栏底部显示折叠控制按钮和当前版本号。
    • 右侧内容区:根据当前选中的功能模块显示对应页面的完整内容。

功能模块导航

  • 左侧导航栏包含以下 5 个功能模块:

    序号菜单项功能说明
    1概览系统总览,显示快速操作入口和最近任务列表
    2互联拓扑3D 拓扑可视化配置,编辑芯片连接和层级结构
    3部署分析LLM 部署评估核心页面,配置模型/拓扑/并行策略
    4结果管理实验与任务结果的查看、对比、导入导出管理
    5知识网络分布式计算概念的交互式知识图谱
  • 点击任一菜单项切换到对应页面。

概览页面(Dashboard)

  • 概览页面

  • 概览页面提供 4 个快速操作卡片,点击卡片可快速跳转到对应功能模块:

    • 互联拓扑配置
    • 部署分析
    • 结果管理
    • 知识网络
  • 页面下方的「最近任务」区域显示最近 5 条评估任务记录,包含任务名称、状态和创建时间,可快速了解当前评估进展。

互联拓扑配置

页面布局

  • 互联拓扑配置页面

  • 页面分为左右两栏,中间可拖动分隔条调整宽度比例:

    • 左栏(配置面板):拓扑层级结构配置、芯片硬件参数编辑、互联参数配置。
    • 右栏(可视化区域):支持两种视图模式,通过右上角按钮切换:
      • 3D 场景视图:使用 Three.js 渲染的 3D 立体拓扑结构,直观展示层级关系。
      • 2D 拓扑图:基于力导向布局的 2D 连接关系图,展示芯片节点间的连接关系。

拓扑层级结构

  • 平台采用 5 级拓扑层级,从外到内依次为:

    层级名称说明
    1Pod集群级别,包含多个 Rack
    2Rack机柜级别,包含多个 Board
    3Board节点/服务器级别,包含多个 Chip
    4Chip加速器级别,计算的基本单元
    5Die可选,芯片内 chiplet 架构(Die-to-Die 互联)
  • 不同的 Rack、Board 可以有不同的芯片配置(异构支持),总芯片数为各层级节点实际挂载芯片数的求和。

拓扑配置操作

  • 选择预设拓扑

    • 在配置面板顶部找到拓扑选择器下拉框。
    • 点击下拉框,从列表中选择预设拓扑模板,如 P1-R1-B1-C8(1 Pod、1 Rack、1 Board、8 Chip)。
    • 预设加载后,层级参数和芯片配置自动填充,3D 视图自动渲染对应的拓扑结构。
    • 拓扑命名规则:P{Pod 数}-R{Rack 数}-B{Board 数}-C{Chip 数}。
  • 自定义拓扑层级参数

    • 在配置面板中逐级填写拓扑结构参数:
      • Pod 配置:在"Pod 数量"输入框中填写 pod_count(Pod 总数)。
      • Rack 配置:填写 racks_per_pod(每个 Pod 中的 Rack 数量)。
      • Board 配置:填写每个 Rack 中的 Board 数量,以及每个 Board 上挂载的芯片类型和数量。
      • Chip 配置:从芯片类型下拉框中选择芯片型号(如 SG2262、H100),填写每个 Board 上该类型芯片的数量。
    • 修改层级参数后,3D 视图实时更新以反映新的拓扑结构。
  • 互联参数配置

    • 在配置面板的互联参数区域,配置各层级间的连接带宽和延迟:

      互联层级标识典型场景示例参数
      芯片间c2cDie-to-Die(同封装内)448 GB/s, 0.2 us
      板间b2b同机柜内跨板(NVLink 等)400 GB/s, 2.0 us
      柜间r2r同 Pod 内跨柜(InfiniBand 等)400 GB/s, 3.0 us
      Pod 间p2p跨 Pod(高速以太网)400 GB/s, 5.0 us
    • 还可配置集合通信算法参数:

      参数说明可选值
      AllReduce 算法TP 组内的 AllReduce 集合通信算法ring / double_binary_tree / halving_doubling / reduce_broadcast
      AllToAll 算法MoE 专家路由的 AllToAll 集合通信算法pairwise / ring / bruck
      网络效率系数实际可用带宽相对标称带宽的比例(0-1)0 到 1 之间的小数,典型值 0.85
      计算-通信重叠是否允许通信与计算并行执行开/关
  • 拓扑配置保存

    • 当前的拓扑配置(层级参数、芯片型号、互联参数)会自动保存到浏览器本地存储(localStorage)。关闭浏览器后重新打开,配置会自动恢复。
    • 注意:浏览器本地存储在清除浏览器数据后会丢失。如需长期保存某个拓扑配置,建议在「部署分析」页面提交评估后,在「结果管理」中导出实验数据——导出文件包含完整的拓扑配置快照。

芯片硬件参数编辑

  • 在配置面板的芯片配置区域,可查看和编辑芯片的详细硬件参数:

    参数说明
    compute_tflops_fp8FP8 精度下的峰值算力(TFLOPS)
    compute_tflops_bf16BF16 精度下的峰值算力(TFLOPS)
    memory_capacity_gb显存总容量(GB)
    memory_bandwidth_gbps显存带宽(GB/s)
    memory_bandwidth_utilization显存带宽实测利用率上限(0-1)
    lmem_capacity_mb片上 SRAM 总容量(MB)
    sram_size_kb单个计算核的 SRAM 大小(KB)
    cube_m / cube_k / cube_n矩阵计算单元(Cube Unit)的三个维度尺寸参数
    lane_num并行计算通道数
    compute_dma_overlap_rate计算与 DMA 数据传输的重叠率(0-1)
  • 修改参数后,下次提交评估时将使用修改后的参数。若参数与预设不同,配置名称旁会出现橙色修改标记。

3D 可视化操作

  • 3D 拓扑可视化视图

  • 支持的交互操作:

    操作方式效果
    旋转视角鼠标左键拖动旋转整个 3D 场景
    缩放鼠标滚轮放大/缩小视图
    平移鼠标右键拖动平移视图位置
    选择节点单击节点高亮该节点,右侧显示节点详情
    进入子层级双击节点深入到该节点的内部子层级视图
    返回上级按 ESC 键返回上一层级视图
  • 颜色编码:Pod(蓝色)、Rack(绿色)、Board(黄色)、Chip(红色)。

  • 页面顶部的面包屑导航显示当前所在层级路径,可点击各层级名称快速跳转到对应层级。

2D 拓扑图操作

  • 切换到 2D 视图后,以力导向图展示芯片节点间的连接关系:
    • 鼠标拖拽:平移画布视图。
    • 鼠标滚轮:缩放视图。
    • 单击节点:选中节点并高亮其所有连接边。
  • 2D 视图适合查看芯片间的连接拓扑关系,以及并行组的分配情况(不同颜色节点代表不同并行组)。

部署分析

页面概述与使用流程

  • 部署分析页面总体布局

  • 部署分析是平台的核心功能页面,用于配置 LLM 推理部署方案并执行性能评估。标准使用流程:

    • 选择或配置 Benchmark(模型 + 推理参数)。
    • 确认或修改拓扑与芯片硬件参数。
    • 配置并行策略(手动/自动搜索/参数扫描三选一)。
    • 配置分析选项(任务名称、评估阶段、优化开关)。
    • 点击「运行分析」执行评估。
    • 评估完成后,前往「结果管理」页面查看详细分析图表。

Benchmark 配置

  • Benchmark 配置区域

  • Benchmark 是"模型 + 推理参数"的组合配置,完整描述一个推理评估场景。

  • 选择 Benchmark 预设

    • 展开左栏的「Benchmark 配置」卡片。
    • 点击预设下拉框,从列表中选择预设(如"DeepSeek-V3 + 8 chips")。
    • 预设加载后,以下字段自动填充:
      • 模型选择(Model)
      • 拓扑选择(Topology)
      • 推理参数(Batch Size、Input/Output Seq Length 等)
    • 预设名称旁的刷新图标可重新拉取预设列表(服务端新增预设后使用)。
    • 注意:选择 Benchmark 预设会同时更新模型和拓扑配置。若之前手动修改过参数,加载新预设后修改会被覆盖。
  • 推理参数配置

    • 在 Benchmark 配置卡片中直接编辑以下推理参数:

      参数说明典型值
      Batch Size并发请求数(批处理大小)1(实时)、32(离线)
      Input Seq Length输入序列长度(tokens)1024、4096
      Output Seq Length输出序列长度(tokens)256、2048
      Weight Precision权重存储精度BF16、FP8、INT8、INT4
      Activation Precision激活值计算精度BF16、FP16、FP8
    • 修改任意参数后,Benchmark 名称旁会出现橙色修改标记,提示当前配置与预设不同。

模型配置

  • 选择模型预设

    • 展开左栏的「模型配置」卡片。
    • 点击模型选择器下拉框,选择预设模型,例如:
      • DeepSeek-V3:671B MoE 模型,含 MLA 注意力机制,256 专家,8 专家/token
      • DeepSeek-R1:DeepSeek R1 系列
      • Qwen3-235B:Qwen3 235B 混合专家模型
      • Qwen2.5-72B:Qwen 2.5 72B 稠密模型
    • 模型参数自动填充,按类别在编辑器中分组显示。
  • 基础结构参数(所有模型)

    参数说明
    hidden_size隐藏层维度
    num_layersTransformer 层数
    num_attention_heads注意力头数
    vocab_size词表大小
    intermediate_sizeFFN 中间层维度
  • MLA 参数(仅 DeepSeek 系列,mla.enabled: true 时显示)

    • MLA 技术通过低秩矩阵分解压缩 KV Cache,可减少 5-8 倍 KV Cache 内存占用,是 DeepSeek 系列在长上下文场景下的关键优化。
    参数说明
    kv_lora_rankKV 压缩秩(越小 KV Cache 内存越小)
    q_lora_rankQuery LoRA 秩
    qk_rope_dimRoPE 位置编码维度
    v_head_dimValue 头维度
  • MoE 参数(仅混合专家模型,moe.enabled: true 时显示)

    参数说明
    num_experts专家总数
    num_shared_experts共享专家数(每个 token 都激活)
    experts_per_token每个 token 激活的路由专家数
    router_topk_policy路由策略(greedy = 贪心选 Top-K 专家)

拓扑与硬件配置

  • 在左栏的拓扑配置区域,从拓扑选择器选择预设拓扑;或使用「互联拓扑」页面中已配置好的当前拓扑(两处共享同一套配置)。
  • 如需微调硬件参数,直接在拓扑卡片的芯片参数区域修改对应字段。
  • 配置集合通信参数(AllReduce 算法、AllToAll 算法、网络效率系数、计算-通信重叠)。
  • 注意:「部署分析」页面中的拓扑选择器与「互联拓扑」页面共用同一套拓扑数据,在任意一个页面修改后,另一页面同步更新。

并行策略配置

  • 并行策略配置区域

  • 平台支持三种并行策略配置模式,在并行策略卡片顶部通过单选按钮切换模式。

  • 手动模式(Manual)

    • 手动指定各维度并行度,适用于验证特定并行方案。可配置的并行度参数:

      参数说明
      DP数据并行度(Data Parallelism)
      TP张量并行度(Tensor Parallelism)
      PP流水线并行度(Pipeline Parallelism)
      EP专家并行度(Expert Parallelism,仅 MoE 模型)
      SP序列并行度(Sequence Parallelism)
      MoE_TPMoE 层张量并行度(仅 MoE 模型)
    • 并行度约束:DP x TP x PP = 总芯片数。页面实时校验乘积是否等于可用芯片总数:

      • 校验通过:输入框无异常样式,「运行分析」按钮可点击。
      • 校验失败:输入框显示红色提示,「运行分析」按钮置灰,无法提交。
    • 示例:拓扑为 P1-R1-B1-C8(共 8 芯片),设置 DP=2, TP=4, PP=1,则 2x4x1=8,校验通过。

  • 自动搜索模式(Auto-search)

    • 系统自动穷举或启发式搜索最优并行策略,适用于不确定最优配置的场景:
      • 切换到「自动搜索」模式,可配置搜索约束(最大迭代次数、最大搜索时间等)。
      • 点击「运行分析」,系统分两阶段执行:第一阶段生成所有满足约束条件的合法并行策略候选组合;第二阶段对每个候选方案独立执行评估,记录性能指标。
      • 搜索过程实时展示进度(完成百分比、当前正在评估的方案)。
      • 可在搜索过程中随时点击「取消」中止。
      • 搜索完成后展示 Top-K 最优方案的排序和对比。
    • 注意:搜索规模随芯片数量呈指数增长。芯片数较多(如 64 片以上)时,建议设置合理的最大迭代次数或时间约束,避免搜索时间过长。
  • 参数遍历模式(Parameter Sweep)

    • 对指定参数进行多值扫描,批量评估所有组合,适用于分析某参数对性能的影响规律:
      • 切换到「参数遍历」模式。
      • 选择要扫描的参数(如 batch_size、TP 等),可多选。
      • 为每个参数配置扫描范围:起始值(扫描的最小值)、结束值(扫描的最大值)、步长(每步的递增量)。
      • 可配置参数绑定组:同一绑定组内的参数同步变化;不同绑定组间做笛卡尔积展开。
      • 页面底部显示总组合数,及预计提交的任务数量。
      • 点击「运行分析」,系统批量提交所有参数组合的评估任务。
    • 示例:扫描 batch_size(起始 1、结束 8、步长 1,共 8 个值),共提交 8 个评估任务。扫描 batch_size(4 个值)和 TP(3 个值),笛卡尔积共 4x3=12 个任务。
    • 注意:参数扫描的所有结果自动归档到同一个实验下,方便在「结果管理」页面的参数敏感性分析中统一对比。

分析配置

  • 在分析配置卡片中设置评估选项:

    参数说明
    任务名称本次评估的名称,用于在结果管理中识别(建议填写有意义的描述)
    任务描述可选,详细说明本次评估的目的或配置重点
    最大并发数同时并行执行的评估任务数(默认 4,可根据机器 CPU 核数调整)
    评估阶段勾选要评估的阶段:Prefill(预填充)、Decode(解码)
    Zigzag ReorderPrefill 阶段序列重排优化开关,启用后减少 AllToAll 通信量
    Ring AttentionTP > 1 时的 Ring Attention 优化开关,减少 Attention 通信开销
    TBOMoE 模型的传输/带宽重叠优化(Transfer-Bandwidth Overlap)
    评估模式Math Mode(数学建模),基于解析公式估算推理时间
  • 评估阶段说明

    • Prefill:计算处理 prompt(输入序列)的时间,结果反映首 token 延迟(TTFT)。
    • Decode:计算逐 token 生成的时间,结果反映吞吐量(TPS)和单 token 延迟(TPOT)。
    • 通常两个阶段均需勾选,以获得完整的性能评估数据。
  • Math Mode 说明

    • 基于解析公式对推理过程进行建模。将推理过程分解为计算(Compute)、内存访问(Memory)、通信(Communication)三类操作,使用 Roofline 模型和 alpha-beta 通信模型计算各阶段的理论执行时间,计算速度快,适用于快速方案评估和大规模参数扫描。

执行评估

  • 确认所有配置(Benchmark、模型、拓扑、并行策略、分析配置)均已设置完毕,点击页面底部的「运行分析」按钮。
  • 评估执行期间,右栏显示实时进度信息:
    • 进度条和完成百分比
    • 当前执行阶段描述(如"正在评估 Prefill 阶段...")
    • 「取消」按钮(可随时中止当前评估)
  • 评估完成后,结果保存到数据库,可在「结果管理」页面的对应实验下查看详细分析。
  • 各模式的提交行为:
    • 手动模式:提交单个评估任务,通常在 30 秒内完成。
    • 自动搜索模式:提交搜索任务,系统内部迭代评估多个候选方案,耗时与搜索空间正相关。
    • 参数扫描模式:提交多个独立评估任务(数量 = 参数组合数),并发执行(受最大并发数限制)。

结果管理

页面概述

  • 结果管理页面

  • 结果管理页面用于查看、分析和管理所有评估实验的结果。页面支持三级视图导航:

    • 实验列表视图:显示所有实验的概览表格。
    • 实验详情视图:显示某实验下所有评估任务的数据表格。
    • 任务分析视图:显示某个具体任务的完整图表分析。
  • 顶部面包屑导航显示当前所在层级(实验列表 / 实验详情 / 任务分析),可点击跳转。

实验列表视图

  • 实验列表显示

    • 实验列表

    • 实验列表以表格形式展示所有实验:

      说明
      选择框用于批量操作的复选框
      实验名称实验的标识名称,点击进入该实验的详情页
      描述实验的描述信息
      创建时间实验创建的时间戳
      任务数该实验包含的评估任务数量
      操作查看详情图标、删除图标
    • 支持分页,可在 10/20/50 条/页之间切换。

  • 内联编辑实验元数据

    • 在实验列表中,双击某实验的「名称」或「描述」字段,进入编辑模式(字段变为输入框)。
    • 修改内容。
    • 点击字段旁的保存图标(或按 Enter 键)确认保存;点击取消图标(或按 Esc 键)放弃修改。
    • 修改成功后,列表中立即显示新内容,刷新页面后仍保持(已持久化到数据库)。
    • 注意:内联编辑仅修改实验的元数据(名称、描述),不影响实验下的任务数据和评估结果。
  • 批量操作

    • 勾选需要操作的实验(单击行左侧复选框,或单击表头复选框全选当前页所有实验)。
    • 工具栏显示「已选 N 个实验」,出现批量操作按钮。
    • 点击「批量删除」,在弹出的确认对话框中确认,选中实验及其所有任务结果将被永久删除。
    • 注意:删除操作不可恢复。批量删除前建议先导出需要保留的实验数据(见导入与导出章节)。

实验详情视图

  • 点击实验名称进入实验详情视图,包含「任务列表」和「分析」两个标签页。

  • 任务列表(TaskTable)

    • 任务数据表格

    • 任务列表采用类 Excel 的表格组件展示评估任务数据。主要数据列:

      列类别包含字段
      基本信息任务名、状态、创建时间、评估阶段(Prefill/Decode)
      并行策略DP、TP、PP、EP 并行度
      吞吐量指标TPS(Decode)、TTFT(Prefill)、TPOT(Decode)
      利用率指标MFU、MBU(Prefill 和 Decode 分别显示)
      成本指标每百万 token 成本、总硬件成本
      配置参数Batch Size、Input/Output Seq Length、权重精度
    • 排序:单击列标题可按该列排序(升序/降序),支持多列联合排序。

    • 导出 CSV:点击表格右上角的「导出」按钮,将当前可见列的所有任务数据导出为 CSV 文件,可在 Excel 中打开进一步分析。

  • 列配置管理

    • 任务表格支持对列的显示、顺序和固定进行自定义配置,并持久化保存:
      • 点击表格右上角的「列设置」按钮,打开列配置面板。
      • 勾选/取消勾选列名,控制该列的显示或隐藏。
      • 在列配置面板中拖拽列名,调整列的显示顺序。
      • 点击列名旁的「固定」按钮,将该列固定到表格左侧(不随横向滚动而移动)。
      • 配置完成后点击「保存」,配置写入数据库,刷新页面后仍保持。
    • 将常用的列配置方案保存为命名预设,在不同分析场景之间快速切换:
      • 完成列配置后,在预设名称输入框中填写名称,点击「保存预设」。
      • 需要加载时,从预设下拉框中选择已保存的预设名称。
      • 支持删除不再使用的预设。

任务分析视图

  • 在任务列表中,点击某行的「查看详情」操作,进入该任务的完整分析视图。顶部面包屑导航:实验列表 -> 实验详情 -> 任务分析,可点击各层级跳转。

  • KPI 面板

    指标说明
    TPSTokens/秒(系统总吞吐量)
    TPOTms/token(单 token 生成时延)
    TTFTms(首 token 延迟)
    MFU算力利用率(0-1)
    MBU带宽利用率(0-1)
  • MFU 与 MBU 解读

    • Decode 阶段(小 Batch Size)算术强度低,通常 MBU 高、MFU 低,属正常现象——此阶段内存带宽是瓶颈,不需要追求高 MFU。
    • Prefill 阶段(长序列)算术强度高,MFU 更有参考价值。
  • 评分雷达图

    • 多维度评分的雷达图(吞吐量、延迟、算力利用率、带宽利用率、成本效益等维度),满分 100 分。
  • 甘特图

    • 横轴为时间(us),纵轴为各计算/通信操作。不同颜色区分计算操作与通信操作。解读要点:
      • 计算块与通信块在时间轴上重叠,说明计算-通信重叠优化生效。
      • 通信块占总时间比例过大(>50%),说明通信是性能瓶颈,可考虑调整 TP/PP 分配或启用 Ring Attention/TBO 优化。
      • 某一层的时间远长于其他层,说明该层是性能热点,重点关注其算子构成。
  • Roofline 图

    • 横轴为算术强度(FLOP/Byte),纵轴为有效吞吐量(TFLOPS)。解读要点:
      • 数据点落在内存屋顶线(斜线区域)左侧:内存带宽是瓶颈。
      • 数据点落在计算屋顶线(水平线区域)右侧:算力是瓶颈。
      • 数据点接近计算屋顶且 MFU 高为理想状态,说明硬件资源被充分利用。
  • 内存占用柱状图

    • 以堆叠柱状图展示各阶段的显存占用构成:模型参数(蓝色)、KV Cache(浅蓝色)、激活值(更浅蓝色)。
    • 若 KV Cache 一栏过高,可考虑缩短序列长度、启用 FP8 量化或选用含 MLA 的 DeepSeek 模型。
  • 算子时间分解图

    • 展示各类算子在总推理时间中的占比(Attention 计算、FFN、AllReduce 通信、AllToAll 通信等)。
    • 若 AllToAll 通信占比显著,说明 MoE 专家路由通信开销大,可考虑启用 TBO 优化或调整 EP 策略。
  • 拓扑流量图

    • 芯片间通信流量的热力图,颜色深浅反映通信量大小。
  • 层级瀑布图

    • 逐层性能分解(每层的计算时间 + 通信时间)。

导入与导出

  • 导出实验

    • 在实验列表页面,勾选需要导出的一个或多个实验。
    • 点击工具栏中的「导出」按钮。
    • 在弹出对话框中确认所选实验列表。
    • 点击「确认导出」,浏览器自动下载 JSON 格式的导出文件。
    • 导出文件包含:实验元数据(名称、描述)、所有任务的完整配置快照(含芯片/模型/拓扑/并行策略参数)和完整评估结果,可用于跨机器共享或长期归档。
  • 导入实验

    • 导入分为 4 个步骤:
      • 上传文件:点击工具栏中的「导入」按钮,选择之前导出的 JSON 文件,文件上传后自动进入下一步。
      • 冲突检查:系统自动检测导入数据中是否存在与本地同名的实验,显示冲突列表供用户确认。
      • 冲突策略配置:选择以下策略之一:跳过(Skip)——冲突实验不导入,非冲突实验正常导入;覆盖(Overwrite)——用导入数据替换本地同名实验(原有任务结果被删除);重命名(Rename)——在冲突实验名称后自动追加时间戳后缀,以新名称导入,本地原实验保留。
      • 结果确认:系统显示导入完成的汇总信息(成功数、跳过数、失败数)。
    • 注意:覆盖操作会永久删除本地同名实验的所有历史任务结果,不可恢复。如有疑虑,建议先选择「重命名」策略,确认导入数据完整后再决定是否删除旧实验。

知识网络

页面概述

  • 知识网络页面

  • 知识网络提供分布式计算与 LLM 推理领域概念的交互式知识图谱,帮助用户理解各概念之间的关联关系(如并行策略、通信算法、硬件架构等概念的相互依赖)。

界面布局

  • 左侧面板:概念搜索框和概念列表,支持按关键词搜索和分类筛选。面板宽度可拖拽调整(200-600px)。
  • 右侧区域:力导向图可视化,以节点和连线展示概念及其关联关系。

操作方式

  • 支持的交互操作:

    操作方式效果
    搜索概念在搜索框中输入关键词左侧列表筛选匹配的概念,图中对应节点高亮
    查看概念详情单击图中节点左侧面板显示该概念的详细说明和关联概念列表
    平移视图鼠标拖拽画布移动知识图谱的显示位置
    缩放视图鼠标滚轮放大或缩小知识图谱
    自适应画布工具栏"适应"按钮图谱自动缩放以填满当前显示区域

常见问题与故障排查

启动问题

  • 问题:浏览器访问 http://localhost:3100 显示"无法连接"或页面空白。

    • 排查:检查前端服务是否正常启动。查看启动脚本的命令行窗口中是否出现 Vite 的启动成功提示("Local: http://localhost:3100/")。
    • 解决:若端口 3100 被占用,Vite 会自动切换到其他端口(如 3101),查看命令行实际端口号后访问对应地址。
  • 问题:页面显示正常,但 Benchmark/模型预设列表为空或加载转圈。

    • 排查:后端服务未正常启动。访问 http://localhost:8003/docs,若无响应则后端未启动。
    • 解决:查看后端命令行窗口的错误日志;确认 8003 端口未被占用;检查 frontend/.envVITE_API_PORT 是否为 8003。
  • 问题:pip install -r requirements.txt 报依赖版本冲突。

    • 解决:在 Python 虚拟环境中安装可隔离冲突:

      # Windows
      python -m venv .venv
      .venv\Scripts\activate
      pip install -r requirements.txt

      # Linux/macOS
      python3 -m venv .venv
      source .venv/bin/activate
      pip install -r requirements.txt
  • 问题:pnpm install 报网络错误或超时。

    • 解决:配置 pnpm 国内镜像:pnpm config set registry https://registry.npmmirror.com,再重新执行安装。

配置问题

  • 问题:手动模式下并行度设置后出现红色错误提示,无法提交。

    • 原因:DP x TP x PP 的乘积不等于当前拓扑的总芯片数。
    • 解决:检查并行度配置。总芯片数 = Pod 数 x Rack/Pod x Board/Rack x Chip/Board,在拓扑配置卡片中查看。
  • 问题:选择某个模型后,MLA 或 MoE 参数区域消失。

    • 原因:所选模型不含 MLA 或 MoE 特性(enabled: false),参数区域自动隐藏,属正常行为。
  • 问题:修改了芯片参数后提交评估,结果与预期不符。

    • 排查:确认配置名称旁是否有橙色修改标记;若无,说明修改未被保存,重新在配置面板中修改后再提交。

评估执行问题

  • 问题:评估任务长时间停留在"运行中"或进度长时间不更新。

    • 排查:访问 http://localhost:8003/docs 确认后端服务仍在运行;查看后端命令行日志是否有错误输出。
    • 解决:点击「取消」中止任务,根据错误日志排查问题后重新提交。
  • 问题:自动搜索模式长时间未出结果。

    • 原因:搜索空间过大(如 32 片或以上时候选方案数量可达数百至数千)。
    • 解决:点击「取消」中止搜索,改为手动模式评估特定方案,或配置更严格的搜索约束(如减少最大迭代次数)。
  • 问题:参数扫描提交大量任务后,其他任务长时间排队等待。

    • 原因:默认最大并发数(4)限制了同时运行的任务数量。
    • 解决:在分析配置的「最大并发数」中增大并发数(根据机器 CPU 核数合理设置,建议不超过 CPU 核心数 / 2)。

结果查看问题

  • 问题:评估完成后,「结果管理」页面没有出现新实验。

    • 排查:检查「部署分析」的分析配置中「任务名称」字段是否已填写;任务状态是否为"已完成"(而非"失败")。
    • 解决:在分析配置卡片中填写有意义的任务名称后重新提交;若任务失败,查看后端日志中的错误信息。
  • 问题:详细结果视图中某些图表区域显示"暂无数据"。

    • 排查:确认分析配置中对应的评估阶段已勾选(如甘特图需要 Prefill 或 Decode 阶段的评估结果)。
  • 问题:MFU 显示值极低(如 0.001),是否异常?

    • 解答:Decode 阶段 Batch Size=1 时,算术强度极低,几乎完全由内存带宽决定性能,MFU 天然很低,属正常现象。此时应关注 MBU(内存带宽利用率)指标。
  • 问题:参数敏感性分析的图表为空或无数据点。

    • 原因:实验下的任务数量不足(单参数折线图需要至少 2 个不同参数值的任务,双参数热力图需要 4 个以上任务),或所选参数在各任务间没有变化。
    • 解决:使用参数扫描模式提交多组参数组合的任务,再在实验详情中进行分析。

CheckList

  • table@checklist
  • Cat.: 环境搭建
    • Check 项目: Python 版本检查
      • Check 方法: 在终端执行 python --version,确认版本号
      • 参考值: Python 3.10 或以上版本
    • Check 项目: Node.js 版本检查
      • Check 方法: 在终端执行 node --version,确认版本号
      • 参考值: v18.0.0 或以上版本
    • Check 项目: 后端依赖安装
      • Check 方法: 在项目根目录执行 pip install -r requirements.txt,观察输出
      • 参考值: 所有包安装成功,无 ERROR 输出(WARNING 可忽略)
    • Check 项目: 前端依赖安装
      • Check 方法: 在 frontend/ 目录执行 pnpm install,观察输出
      • 参考值: 安装完成,node_modules 目录存在,无 ERR 输出
    • Check 项目: 平台前端启动
      • Check 方法: 执行 start.bat(Windows)或 ./start.sh(Linux),浏览器打开 http://localhost:3100
      • 参考值: 显示概览页面(Dashboard),左侧导航栏包含完整功能菜单(概览/互联拓扑/部署分析/结果管理/知识网络),4 个快速操作卡片可见
    • Check 项目: 后端 API 可访问
      • Check 方法: 浏览器访问 http://localhost:8003/docs
      • 参考值: 显示 FastAPI Swagger 文档页面,API 端点列表非空(说明后端路由注册正常),页面标题包含"Tier6"
    • Check 项目: 前后端连通性
      • Check 方法: 进入「部署分析」页面,点击 Benchmark 预设下拉框
      • 参考值: 下拉列表显示至少 1 个预设选项(非空),不出现"加载失败"或转圈超过 5 秒
  • Cat.: 互联拓扑配置
    • Check 项目: 预设拓扑加载
      • Check 方法: 进入「互联拓扑」页面,在拓扑选择器下拉框中选择 P1-R1-B1-C8
      • 参考值: 层级参数自动填充(Pod=1, Rack=1, Board=1, Chip=8),3D 视图渲染出 8 个芯片节点
    • Check 项目: 3D 视图基本交互
      • Check 方法: 在 3D 视图中依次执行鼠标左键拖动(旋转)、滚轮滚动(缩放)、右键拖动(平移)
      • 参考值: 视图响应流畅,旋转角度跟随鼠标方向,缩放后芯片节点大小改变,平移位移正确
    • Check 项目: 层级下钻与返回
      • Check 方法: 在 3D 视图中双击某个节点进入子层级,然后按 ESC 返回上级
      • 参考值: 成功切换到子层级视图,顶部面包屑导航路径更新,按 ESC 后返回上级,面包屑路径缩短
    • Check 项目: 芯片硬件参数编辑
      • Check 方法: 修改 compute_tflops_bf16 数值后切换到其他配置项再切回
      • 参考值: 修改后的数值被保留,配置名称旁出现橙色修改标记
    • Check 项目: 互联参数配置
      • Check 方法: 修改 c2c 互联的带宽值(如改为 512),确认是否接受输入
      • 参考值: 输入框接受新数值,无报错,数值显示为 512
  • Cat.: 部署分析 - 配置
    • Check 项目: Benchmark 预设加载
      • Check 方法: 进入「部署分析」,从 Benchmark 预设下拉框选择任意预设
      • 参考值: 模型名称、拓扑名称、Batch Size、Seq Length 等字段自动填充,无字段显示为空
    • Check 项目: 模型预设切换(MoE/MLA 字段显隐)
      • Check 方法: 在模型选择器中从 DeepSeek-V3 切换到 Qwen2.5-72B
      • 参考值: 切换后 MoE 和 MLA 参数区域消失(Qwen2.5-72B 为稠密模型,两者均为 disabled)
    • Check 项目: 推理参数修改标记
      • Check 方法: 修改 Batch Size 为 32,观察 Benchmark 名称旁的状态
      • 参考值: Benchmark 名称旁出现橙色修改标记(提示当前配置与预设不同)
    • Check 项目: 手动模式并行度校验(合法输入)
      • Check 方法: 使用 P1-R1-B1-C8(8 芯片)拓扑,手动模式设置 DP=2, TP=4, PP=1
      • 参考值: DPTPPP=8=总芯片数,无红色错误提示,「运行分析」按钮处于可点击状态
    • Check 项目: 手动模式并行度校验(非法输入)
      • Check 方法: 手动模式下设置 DP=3, TP=4, PP=1(乘积=12,不等于总芯片数 8)
      • 参考值: 显示红色错误提示说明乘积与芯片数不符,「运行分析」按钮置灰不可点击
    • Check 项目: 自动搜索模式切换
      • Check 方法: 将并行策略模式切换到「自动搜索」,观察页面变化
      • 参考值: 手动并行度输入框消失,出现搜索约束配置项,「运行分析」按钮仍可点击
    • Check 项目: 参数扫描模式配置
      • Check 方法: 切换到「参数遍历」模式,添加 batch_size 参数(起始 1、结束 4、步长 1),查看组合数
      • 参考值: 页面显示总组合数为 4,提交后将产生 4 个评估任务
  • Cat.: 部署分析 - 执行与结果
    • Check 项目: 手动模式单次评估执行
      • Check 方法: 配置合法的并行策略,填写任务名称,点击「运行分析」
      • 参考值: 右栏出现进度指示,进度百分比从 0% 开始增长,60 秒内完成,历史记录列表中出现新条目
    • Check 项目: 评估结果 KPI 合理性
      • Check 方法: 评估完成后查看 KPI 面板中的各项指标
      • 参考值: TPS > 0,MFU 在 0 到 1 之间,MBU 在 0 到 1 之间,TPOT > 0,TTFT > 0
    • Check 项目: 评估任务取消
      • Check 方法: 评估执行期间点击「取消」按钮
      • 参考值: 进度条停止增长,任务状态显示为"已取消",右栏不再更新进度
    • Check 项目: 甘特图渲染
      • Check 方法: 评估完成后进入详细结果视图,找到甘特图
      • 参考值: 甘特图显示至少一个非空的时间线(有彩色时间块),横轴有时间刻度(us),纵轴有操作名称标签
    • Check 项目: Roofline 图渲染
      • Check 方法: 在详细结果视图中找到 Roofline 图
      • 参考值: 图中显示屋顶线(斜线段 + 水平线段),至少一个数据点分布在坐标系中,X/Y 轴均有标签
  • Cat.: 结果管理
    • Check 项目: 实验列表加载
      • Check 方法: 进入「结果管理」页面,等待列表加载完成
      • 参考值: 实验列表表格加载完成(无转圈),显示实验名称、创建时间、任务数列,无报错提示
    • Check 项目: 实验内联编辑持久化
      • Check 方法: 双击某实验名称,修改为新名称并保存,然后刷新浏览器页面
      • 参考值: 刷新后显示修改后的名称,确认修改已持久化(未恢复为旧名称)
    • Check 项目: 进入实验详情
      • Check 方法: 点击某实验名称进入详情,查看任务列表标签页
      • 参考值: 以类 Excel 表格展示任务数据,包含并行策略(DP/TP/PP)和性能指标(TPS/TPOT/MFU/MBU)列
    • Check 项目: 列配置管理持久化
      • Check 方法: 在任务表格中点击「列设置」,隐藏「MBU」列并保存,然后刷新页面
      • 参考值: 刷新后「MBU」列仍然隐藏,确认列配置已持久化到数据库
    • Check 项目: 任务 CSV 导出
      • Check 方法: 在任务表格中点击「导出」按钮
      • 参考值: 浏览器下载 CSV 文件,文件大小 > 0,用文本编辑器打开第一行包含列名(如 task_name, TPS, MFU 等)
    • Check 项目: 参数敏感性分析(单参数折线图)
      • Check 方法: 在实验详情的「分析」标签中,选择 1 个参数(如 batch_size)和 1 个指标(如 TPS),点击生成图表
      • 参考值: 折线图正常渲染,X 轴为 batch_size 取值,Y 轴为 TPS 值,折线数据点数量等于该参数的扫描点数
    • Check 项目: 实验导出
      • Check 方法: 在实验列表中勾选 1 个实验,点击「导出」并下载
      • 参考值: 浏览器下载 JSON 文件,文件大小 > 0,用文本编辑器打开可见 experiments 和 tasks 字段
    • Check 项目: 实验导入(重命名冲突策略)
      • Check 方法: 点击「导入」,选择刚导出的 JSON 文件,冲突策略选择「重命名」,执行导入
      • 参考值: 导入完成提示成功,实验列表中出现新条目,名称与原实验相同但带时间戳后缀
    • Check 项目: 批量删除
      • Check 方法: 勾选 1-2 个测试用实验,点击「批量删除」并在确认对话框中确认
      • 参考值: 确认后被选实验从列表中消失,其余实验不受影响,刷新页面后确认删除已持久化
  • Cat.: 知识网络
    • Check 项目: 知识图谱加载
      • Check 方法: 进入「知识网络」页面,等待页面完成加载
      • 参考值: 力导向图中出现节点和连线(节点数 >= 10),左侧概念列表非空,页面无报错
    • Check 项目: 节点点击交互
      • Check 方法: 单击知识图谱中的任意节点
      • 参考值: 被点击节点高亮显示,左侧面板更新显示该概念的名称、说明文字和关联概念列表(至少显示 1 个关联概念)