[Paper] Dooly：配置无关、冗余感知的LLM推理仿真性能分析

发布: 3天前 (2026年5月9日 GMT+8 00:44)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.07985v1

概述

本文介绍了 Dooly，一种全新的分析框架，使工程师能够在无需对每一种硬件‑软件配置重新进行分析的情况下，模拟大语言模型（LLM）推理。通过识别许多操作维度是由模型本身固定的，而只有少数是请求特定的，Dooly 将分析工作量减半，同时将延迟估计保持在实际运行的几百分点以内。

关键贡献

Configuration‑agnostic profiling – 单次推理过程即可服务多种模型‑硬件‑引擎组合。
Redundancy‑aware latency database – Dooly 仅记录新的操作形状，避免重复测量。
Taint‑propagation labeling – 自动为每个张量维度标记其来源（模型配置 vs. 请求），消除手动仪器化。
Stateful operation isolation – 复用服务引擎自身的初始化代码，对注意力相关内核进行分析，无需额外代码更改。
Drop‑in backend – 生成的延迟回归模型可直接替换现有模拟器的分析层，无需 API 更改。
Empirical validation – 在 12 个模型、2 个 GPU 系列和 3 种注意力后端的测试中，Dooly 将分析 GPU 小时降低 56 %，并在首令牌时间 (TTFT) 上实现 ≤ 5 % 的 MAPE，在整体提示到输出时间 (TPOT) 上实现 ≤ 8 % 的 MAPE。

方法论

Single‑pass tracing – Dooly runs a representative inference request once, while a lightweight tracer records every tensor operation.
单次追踪 – Dooly 只运行一次具有代表性的推理请求，同时轻量级追踪器记录每个张量操作。
Taint propagation – each tensor dimension is marked as either model‑derived (e.g., number of heads, hidden size) or request‑derived (e.g., batch size, sequence length). This creates a map from operation shape to its “origin vector.”
污点传播 – 每个张量维度被标记为 模型派生（例如，头数、隐藏层大小）或 请求派生（例如，批量大小、序列长度）。这会创建一个从操作形状到其“来源向量”的映射。
Redundancy detection – before profiling an operation, Dooly checks its latency database. If an entry with the same origin vector already exists, the operation is skipped.
冗余检测 – 在对操作进行分析之前，Dooly 会检查其延迟数据库。如果已经存在具有相同来源向量的条目，则跳过该操作。
Stateful kernel handling – for operations that keep internal state (like attention’s key/value caches), Dooly re‑executes the serving engine’s own initialization routine, capturing the true runtime without hand‑crafted hooks.
有状态内核处理 – 对于保持内部状态的操作（如注意力的键/值缓存），Dooly 重新执行服务引擎自己的初始化例程，捕获真实运行时而无需手工编写的钩子。
Latency modeling – the collected data feed a regression model (e.g., linear or small neural net) that predicts latency as a function of the origin vector. The model is then queried by any simulator to estimate end‑to‑end performance for arbitrary configurations.
延迟建模 – 收集的数据用于训练回归模型（例如线性模型或小型神经网络），该模型根据来源向量预测延迟。随后任何模拟器都可以查询该模型，以估算任意配置的端到端性能。

The whole pipeline is automated, requiring only a single “profile run” per model family rather than per hardware‑software combo.
整个流水线实现自动化，只需对每个模型系列进行一次“分析运行”，而不必针对每种硬件‑软件组合单独运行。

结果与发现

指标	Dooly vs. Baseline	解释
分析 GPU 小时节省	56.4 % 减少（12 个模型）	构建延迟数据库的计算成本不到一半
TTFT 预测误差	≤ 5 % MAPE	对最敏感延迟指标的近实时准确性
TPOT 预测误差	≤ 8 % MAPE	足以用于容量规划和 SLA 估算
测试平台	NVIDIA A100, RTX 4090	展示了跨 GPU 的适用性
注意力后端	FlashAttention‑2, Xformer, native CUDA	显示了对不同内核实现的鲁棒性

作者还报告说，回归模型在小幅软件更新中保持稳定，这意味着无需为每个驱动程序或库补丁重复分析步骤。

实际影响

更快的配置搜索 – 团队现在可以在几分钟内评估数十种硬件‑引擎‑模型组合，而不是几天，从而加速“为你的 LLM 选型”工作流。
成本效益高的容量规划 – 精确的 TTFT/TPOT 估计使云运营商能够以更紧凑的利用率目标配置 GPU 实例，降低浪费支出。
简化的工具集成 – 由于 Dooly 作为后端接入现有模拟器，开发者无需重写性能测试流水线即可采用它。
降低工程开销 – 无需为每个新的注意力内核或服务堆栈编写自定义仪器；Dooly 的污点传播会自动完成繁重工作。
支持“假设”分析 – 工程师可以询问“如果我们将批量大小加倍但保持模型不变会怎样？”并立即获得可靠的延迟预测，从而支持 API 变更的快速 A/B 测试。

限制与未来工作

范围仅限于推理 – 训练工作负载（涉及反向传播和优化器状态）不在覆盖范围内。
假设内核是确定性的 – 高度动态的内核（例如运行时生成的 PTX）可能会破坏冗余检测逻辑。
回归模型的简易性 – 当前模型为线性或浅层网络；更复杂的交互（例如内存带宽争用）可能需要更丰富的模型。
硬件多样性 – 验证仅在两类 GPU 上进行；将其扩展到 TPU、CPU 或即将出现的加速器架构仍是未解之题。

未来的研究方向包括将 Dooly 的污点传播扩展到训练流水线、加入多租户干扰模型，以及探索直接利用 Dooly 延迟预测的自动模型选择技术。

作者

Joon Ha Kim
Geon-Woo Kim
Anoop Rachakonda
Daehyeok Kim

论文信息

arXiv ID: 2605.07985v1
分类: cs.DC, cs.AI
发表时间: 2026年5月8日
PDF: 下载 PDF

[Paper] Dooly：配置无关、冗余感知的LLM推理仿真性能分析

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择