[Paper] Dooly:配置无关、冗余感知的LLM推理仿真性能分析

发布: (2026年5月9日 GMT+8 00:44)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.07985v1

概述

本文介绍了 Dooly,一种全新的分析框架,使工程师能够在无需对每一种硬件‑软件配置重新进行分析的情况下,模拟大语言模型(LLM)推理。通过识别许多操作维度是由模型本身固定的,而只有少数是请求特定的,Dooly 将分析工作量减半,同时将延迟估计保持在实际运行的几百分点以内。

关键贡献

  • Configuration‑agnostic profiling – 单次推理过程即可服务多种模型‑硬件‑引擎组合。
  • Redundancy‑aware latency database – Dooly 仅记录的操作形状,避免重复测量。
  • Taint‑propagation labeling – 自动为每个张量维度标记其来源(模型配置 vs. 请求),消除手动仪器化。
  • Stateful operation isolation – 复用服务引擎自身的初始化代码,对注意力相关内核进行分析,无需额外代码更改。
  • Drop‑in backend – 生成的延迟回归模型可直接替换现有模拟器的分析层,无需 API 更改。
  • Empirical validation – 在 12 个模型、2 个 GPU 系列和 3 种注意力后端的测试中,Dooly 将分析 GPU 小时降低 56 %,并在首令牌时间 (TTFT) 上实现 ≤ 5 % 的 MAPE,在整体提示到输出时间 (TPOT) 上实现 ≤ 8 % 的 MAPE。

方法论

  1. Single‑pass tracing – Dooly runs a representative inference request once, while a lightweight tracer records every tensor operation.
    单次追踪 – Dooly 只运行一次具有代表性的推理请求,同时轻量级追踪器记录每个张量操作。

  2. Taint propagation – each tensor dimension is marked as either model‑derived (e.g., number of heads, hidden size) or request‑derived (e.g., batch size, sequence length). This creates a map from operation shape to its “origin vector.”
    污点传播 – 每个张量维度被标记为 模型派生(例如,头数、隐藏层大小)或 请求派生(例如,批量大小、序列长度)。这会创建一个从操作形状到其“来源向量”的映射。

  3. Redundancy detection – before profiling an operation, Dooly checks its latency database. If an entry with the same origin vector already exists, the operation is skipped.
    冗余检测 – 在对操作进行分析之前,Dooly 会检查其延迟数据库。如果已经存在具有相同来源向量的条目,则跳过该操作。

  4. Stateful kernel handling – for operations that keep internal state (like attention’s key/value caches), Dooly re‑executes the serving engine’s own initialization routine, capturing the true runtime without hand‑crafted hooks.
    有状态内核处理 – 对于保持内部状态的操作(如注意力的键/值缓存),Dooly 重新执行服务引擎自己的初始化例程,捕获真实运行时而无需手工编写的钩子。

  5. Latency modeling – the collected data feed a regression model (e.g., linear or small neural net) that predicts latency as a function of the origin vector. The model is then queried by any simulator to estimate end‑to‑end performance for arbitrary configurations.
    延迟建模 – 收集的数据用于训练回归模型(例如线性模型或小型神经网络),该模型根据来源向量预测延迟。随后任何模拟器都可以查询该模型,以估算任意配置的端到端性能。

The whole pipeline is automated, requiring only a single “profile run” per model family rather than per hardware‑software combo.
整个流水线实现自动化,只需对每个模型系列进行一次“分析运行”,而不必针对每种硬件‑软件组合单独运行。

结果与发现

指标Dooly vs. Baseline解释
分析 GPU 小时节省56.4 % 减少(12 个模型)构建延迟数据库的计算成本不到一半
TTFT 预测误差≤ 5 % MAPE对最敏感延迟指标的近实时准确性
TPOT 预测误差≤ 8 % MAPE足以用于容量规划和 SLA 估算
测试平台NVIDIA A100, RTX 4090展示了跨 GPU 的适用性
注意力后端FlashAttention‑2, Xformer, native CUDA显示了对不同内核实现的鲁棒性

作者还报告说,回归模型在小幅软件更新中保持稳定,这意味着无需为每个驱动程序或库补丁重复分析步骤。

实际影响

  • 更快的配置搜索 – 团队现在可以在几分钟内评估数十种硬件‑引擎‑模型组合,而不是几天,从而加速“为你的 LLM 选型”工作流。
  • 成本效益高的容量规划 – 精确的 TTFT/TPOT 估计使云运营商能够以更紧凑的利用率目标配置 GPU 实例,降低浪费支出。
  • 简化的工具集成 – 由于 Dooly 作为后端接入现有模拟器,开发者无需重写性能测试流水线即可采用它。
  • 降低工程开销 – 无需为每个新的注意力内核或服务堆栈编写自定义仪器;Dooly 的污点传播会自动完成繁重工作。
  • 支持“假设”分析 – 工程师可以询问“如果我们将批量大小加倍但保持模型不变会怎样?”并立即获得可靠的延迟预测,从而支持 API 变更的快速 A/B 测试。

限制与未来工作

  • 范围仅限于推理 – 训练工作负载(涉及反向传播和优化器状态)不在覆盖范围内。
  • 假设内核是确定性的 – 高度动态的内核(例如运行时生成的 PTX)可能会破坏冗余检测逻辑。
  • 回归模型的简易性 – 当前模型为线性或浅层网络;更复杂的交互(例如内存带宽争用)可能需要更丰富的模型。
  • 硬件多样性 – 验证仅在两类 GPU 上进行;将其扩展到 TPU、CPU 或即将出现的加速器架构仍是未解之题。

未来的研究方向包括将 Dooly 的污点传播扩展到训练流水线、加入多租户干扰模型,以及探索直接利用 Dooly 延迟预测的自动模型选择技术。

作者

  • Joon Ha Kim
  • Geon-Woo Kim
  • Anoop Rachakonda
  • Daehyeok Kim

论文信息

  • arXiv ID: 2605.07985v1
  • 分类: cs.DC, cs.AI
  • 发表时间: 2026年5月8日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »