[Paper] 不要破坏缓存:对 Prompt Caching 在长时程 Agentic 任务的评估
发布: (2026年1月10日 GMT+8 02:41)
6 min read
原文: arXiv
Source: arXiv - 2601.06007v1
(未提供需要翻译的正文内容。如需翻译,请粘贴或上传完整的文本。)
概述
论文 “Don’t Break the Cache: An Evaluation of Prompt Caching for Long‑Horizon Agentic Tasks” 研究了提示缓存——主要大语言模型提供商提供的一种优化——在大语言模型作为必须在多轮中调用外部工具(例如网页搜索)的自主代理时的表现。通过在大规模基准上测量实际成本和延迟,作者展示了智能缓存可以将 API 费用削减高达 80 %,同时加快首个 token 的响应速度。
关键贡献
- 首次系统量化 多轮、工具调用 LLM 代理的提示缓存节省。
- 跨供应商比较(OpenAI、Anthropic、Google),涵盖三种不同的缓存策略:
- 完整上下文缓存(全部缓存)。
- 仅系统提示缓存。
- 动态内容排除缓存(静态提示 + 工具结果省略)。
- 大规模实证评估 在 DeepResearchBench(约 500 个代理会话,> 10 k‑token 系统提示)。
- 实用指南,用于安排提示和缓存块,以避免“缓存导致的延迟峰值”。
- 开源发布基准脚本以及每个供应商的详细成本/延迟分析。
方法论
- 基准选择 – DeepResearchBench 包含真实的研究问题回答任务,LLM 代理必须反复调用网页搜索工具,解析结果,并综合出答案。
- 提示设计 – 每个会话使用约 10 k 令牌的系统提示,编码任务指令、工具模式以及少量静态示例。
- 缓存策略 –
- 全上下文:首次调用后缓存整个提示(系统 + 用户 + 工具结果)。
- 仅系统提示:仅缓存静态系统提示;动态的用户回合和工具输出每回合重新发送。
- 动态排除:缓存静态提示,但任何包含工具结果的块都会被刻意排除在缓存之外。
- 度量指标 – 对每个回合,作者记录:
- API 成本(基于令牌的定价)。
- 首次令牌时间 (TTFT) 作为延迟代理。
- 规模 – 在三个提供商之间共计超过 10 000 次 API 调用,确保统计显著性。
结果与发现
| 提供商 | 策略 | 平均成本降低 | 平均 TTFT 改进 |
|---|---|---|---|
| OpenAI | 动态排除 | ≈ 78 % | +31 % |
| Anthropic | 仅系统提示 | ≈ 65 % | +24 % |
| 动态排除 | ≈ 45 % | +13 % |
- 全上下文缓存 有时会 增加 TTFT,因为缓存存储了大量动态工具输出,导致模型在每轮都要重新处理无关数据。
- 将 动态内容放在系统提示的末尾(以便从缓存中排除)能够获得最稳定的性能。
- 节省幅度因提供商而异,原因在于各服务在缓存失效和令牌计费粒度上的实现差异。
Source: …
实际影响
- Cost‑effective agents – 运行成千上万的自主 LLM 代理(例如研究助理、自动化帮助台)的生产系统,可以通过启用提示缓存并按推荐方式结构化提示,显著降低运营支出。
- Latency‑critical UX – 更快的首次响应时间(TTFT)转化为更流畅的用户体验,这在实时助手或基于聊天的 IDE 插件中尤为重要。
- Prompt engineering checklist:
- 将 static system prompt 与任何回合特定或工具生成的文本分开。
- 将 dynamic tool results 追加在缓存块之后,或存放在不被缓存的单独 “scratchpad”。
- 使用供应商特定的缓存控制标志(例如 OpenAI API 中的
cache_control)显式排除易变部分。
- Infrastructure simplification – 由于缓存由供应商处理,开发者无需构建自定义记忆化层,只需正确格式化提示即可。
限制与未来工作
- 该研究聚焦于 单代理、单任务 工作负载;多代理协作或分支对话可能表现出不同的缓存动态。
- 仅审查了三家商业提供商;新兴的开源 LLM 服务堆栈(例如 vLLM、Llama‑cpp)可能表现不同。
- 基准使用了 10 k 令牌的系统提示,其规模大于典型的生产提示;对于较小提示的结果可能显示相对节省减少。
- 未来研究可以探索 自适应缓存策略,该策略基于观察到的延迟或成本趋势自动切换缓存块,并将评估扩展到其他工具类型(例如代码执行、数据库查询)。
作者
- Elias Lumer
- Faheem Nizar
- Akshaya Jangiti
- Kevin Frank
- Anmol Gulati
- Mandar Phadate
- Vamse Kumar Subbiah
论文信息
- arXiv ID: 2601.06007v1
- Categories: cs.CL
- Published: 2026年1月9日
- PDF: 下载 PDF