[Paper] 不要破坏缓存:对 Prompt Caching 在长时程 Agentic 任务的评估

发布: (2026年1月10日 GMT+8 02:41)
6 min read
原文: arXiv

Source: arXiv - 2601.06007v1

(未提供需要翻译的正文内容。如需翻译,请粘贴或上传完整的文本。)

概述

论文 “Don’t Break the Cache: An Evaluation of Prompt Caching for Long‑Horizon Agentic Tasks” 研究了提示缓存——主要大语言模型提供商提供的一种优化——在大语言模型作为必须在多轮中调用外部工具(例如网页搜索)的自主代理时的表现。通过在大规模基准上测量实际成本和延迟,作者展示了智能缓存可以将 API 费用削减高达 80 %,同时加快首个 token 的响应速度。

关键贡献

  • 首次系统量化 多轮、工具调用 LLM 代理的提示缓存节省。
  • 跨供应商比较(OpenAI、Anthropic、Google),涵盖三种不同的缓存策略:
    1. 完整上下文缓存(全部缓存)。
    2. 仅系统提示缓存。
    3. 动态内容排除缓存(静态提示 + 工具结果省略)。
  • 大规模实证评估DeepResearchBench(约 500 个代理会话,> 10 k‑token 系统提示)。
  • 实用指南,用于安排提示和缓存块,以避免“缓存导致的延迟峰值”。
  • 开源发布基准脚本以及每个供应商的详细成本/延迟分析。

方法论

  1. 基准选择 – DeepResearchBench 包含真实的研究问题回答任务,LLM 代理必须反复调用网页搜索工具,解析结果,并综合出答案。
  2. 提示设计 – 每个会话使用约 10 k 令牌的系统提示,编码任务指令、工具模式以及少量静态示例。
  3. 缓存策略
    • 全上下文:首次调用后缓存整个提示(系统 + 用户 + 工具结果)。
    • 仅系统提示:仅缓存静态系统提示;动态的用户回合和工具输出每回合重新发送。
    • 动态排除:缓存静态提示,但任何包含工具结果的块都会被刻意排除在缓存之外。
  4. 度量指标 – 对每个回合,作者记录:
    • API 成本(基于令牌的定价)。
    • 首次令牌时间 (TTFT) 作为延迟代理。
  5. 规模 – 在三个提供商之间共计超过 10 000 次 API 调用,确保统计显著性。

结果与发现

提供商策略平均成本降低平均 TTFT 改进
OpenAI动态排除≈ 78 %+31 %
Anthropic仅系统提示≈ 65 %+24 %
Google动态排除≈ 45 %+13 %
  • 全上下文缓存 有时会 增加 TTFT,因为缓存存储了大量动态工具输出,导致模型在每轮都要重新处理无关数据。
  • 动态内容放在系统提示的末尾(以便从缓存中排除)能够获得最稳定的性能。
  • 节省幅度因提供商而异,原因在于各服务在缓存失效和令牌计费粒度上的实现差异。

Source:

实际影响

  • Cost‑effective agents – 运行成千上万的自主 LLM 代理(例如研究助理、自动化帮助台)的生产系统,可以通过启用提示缓存并按推荐方式结构化提示,显著降低运营支出。
  • Latency‑critical UX – 更快的首次响应时间(TTFT)转化为更流畅的用户体验,这在实时助手或基于聊天的 IDE 插件中尤为重要。
  • Prompt engineering checklist:
    1. static system prompt 与任何回合特定或工具生成的文本分开。
    2. dynamic tool results 追加在缓存块之后,或存放在不被缓存的单独 “scratchpad”。
    3. 使用供应商特定的缓存控制标志(例如 OpenAI API 中的 cache_control)显式排除易变部分。
  • Infrastructure simplification – 由于缓存由供应商处理,开发者无需构建自定义记忆化层,只需正确格式化提示即可。

限制与未来工作

  • 该研究聚焦于 单代理、单任务 工作负载;多代理协作或分支对话可能表现出不同的缓存动态。
  • 仅审查了三家商业提供商;新兴的开源 LLM 服务堆栈(例如 vLLM、Llama‑cpp)可能表现不同。
  • 基准使用了 10 k 令牌的系统提示,其规模大于典型的生产提示;对于较小提示的结果可能显示相对节省减少。
  • 未来研究可以探索 自适应缓存策略,该策略基于观察到的延迟或成本趋势自动切换缓存块,并将评估扩展到其他工具类型(例如代码执行、数据库查询)。

作者

  • Elias Lumer
  • Faheem Nizar
  • Akshaya Jangiti
  • Kevin Frank
  • Anmol Gulati
  • Mandar Phadate
  • Vamse Kumar Subbiah

论文信息

  • arXiv ID: 2601.06007v1
  • Categories: cs.CL
  • Published: 2026年1月9日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »