[Paper] 不要破坏缓存：对 Prompt Caching 在长时程 Agentic 任务的评估

发布: 1个月前 (2026年1月10日 GMT+8 02:41)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.06007v1

（未提供需要翻译的正文内容。如需翻译，请粘贴或上传完整的文本。）

概述

论文 “Don’t Break the Cache: An Evaluation of Prompt Caching for Long‑Horizon Agentic Tasks” 研究了提示缓存——主要大语言模型提供商提供的一种优化——在大语言模型作为必须在多轮中调用外部工具（例如网页搜索）的自主代理时的表现。通过在大规模基准上测量实际成本和延迟，作者展示了智能缓存可以将 API 费用削减高达 80 %，同时加快首个 token 的响应速度。

关键贡献

首次系统量化 多轮、工具调用 LLM 代理的提示缓存节省。
跨供应商比较（OpenAI、Anthropic、Google），涵盖三种不同的缓存策略：
1. 完整上下文缓存（全部缓存）。
2. 仅系统提示缓存。
3. 动态内容排除缓存（静态提示 + 工具结果省略）。
大规模实证评估 在 DeepResearchBench（约 500 个代理会话，> 10 k‑token 系统提示）。
实用指南，用于安排提示和缓存块，以避免“缓存导致的延迟峰值”。
开源发布基准脚本以及每个供应商的详细成本/延迟分析。

方法论

基准选择 – DeepResearchBench 包含真实的研究问题回答任务，LLM 代理必须反复调用网页搜索工具，解析结果，并综合出答案。
提示设计 – 每个会话使用约 10 k 令牌的系统提示，编码任务指令、工具模式以及少量静态示例。
缓存策略 –
- 全上下文：首次调用后缓存整个提示（系统 + 用户 + 工具结果）。
- 仅系统提示：仅缓存静态系统提示；动态的用户回合和工具输出每回合重新发送。
- 动态排除：缓存静态提示，但任何包含工具结果的块都会被刻意排除在缓存之外。
度量指标 – 对每个回合，作者记录：
- API 成本（基于令牌的定价）。
- 首次令牌时间 (TTFT) 作为延迟代理。
规模 – 在三个提供商之间共计超过 10 000 次 API 调用，确保统计显著性。

结果与发现

提供商	策略	平均成本降低	平均 TTFT 改进
OpenAI	动态排除	≈ 78 %	+31 %
Anthropic	仅系统提示	≈ 65 %	+24 %
Google	动态排除	≈ 45 %	+13 %

全上下文缓存 有时会增加 TTFT，因为缓存存储了大量动态工具输出，导致模型在每轮都要重新处理无关数据。
将 动态内容放在系统提示的末尾（以便从缓存中排除）能够获得最稳定的性能。
节省幅度因提供商而异，原因在于各服务在缓存失效和令牌计费粒度上的实现差异。

Source: …

实际影响

Cost‑effective agents – 运行成千上万的自主 LLM 代理（例如研究助理、自动化帮助台）的生产系统，可以通过启用提示缓存并按推荐方式结构化提示，显著降低运营支出。
Latency‑critical UX – 更快的首次响应时间（TTFT）转化为更流畅的用户体验，这在实时助手或基于聊天的 IDE 插件中尤为重要。
Prompt engineering checklist:
1. 将 static system prompt 与任何回合特定或工具生成的文本分开。
2. 将 dynamic tool results 追加在缓存块之后，或存放在不被缓存的单独 “scratchpad”。
3. 使用供应商特定的缓存控制标志（例如 OpenAI API 中的 cache_control）显式排除易变部分。
Infrastructure simplification – 由于缓存由供应商处理，开发者无需构建自定义记忆化层，只需正确格式化提示即可。

限制与未来工作

该研究聚焦于 单代理、单任务 工作负载；多代理协作或分支对话可能表现出不同的缓存动态。
仅审查了三家商业提供商；新兴的开源 LLM 服务堆栈（例如 vLLM、Llama‑cpp）可能表现不同。
基准使用了 10 k 令牌的系统提示，其规模大于典型的生产提示；对于较小提示的结果可能显示相对节省减少。
未来研究可以探索 自适应缓存策略，该策略基于观察到的延迟或成本趋势自动切换缓存块，并将评估扩展到其他工具类型（例如代码执行、数据库查询）。

作者

Elias Lumer
Faheem Nizar
Akshaya Jangiti
Kevin Frank
Anmol Gulati
Mandar Phadate
Vamse Kumar Subbiah

论文信息

arXiv ID: 2601.06007v1
Categories: cs.CL
Published: 2026年1月9日
PDF: 下载 PDF

[Paper] 不要破坏缓存：对 Prompt Caching 在长时程 Agentic 任务的评估

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] 链接证据：面向深度搜索代理的鲁棒强化学习与引用感知评分奖励

[Paper] 思维的分子结构：绘制长Chain-of-Thought推理的拓扑

[Paper] 将反馈蒸馏到 Memory-as-a-Tool