[Paper] 在情境意图中根植代理记忆

发布: 3个月前 (2026年1月16日 GMT+8 02:55)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.10702v1

概述

在多步骤、目标驱动的任务中，将大型语言模型（LLMs）部署为自主代理仍然脆弱：相同的实体和事实会在不同的隐藏目标下不断出现，且代理的记忆常常检索到错误的上下文信息。论文 “Grounding Agent Memory in Contextual Intent” 引入了 STITCH（Structured Intent Tracking in Contextual History），这是一种记忆索引框架，为每个交互步骤标记紧凑的“意图”信号，使代理能够仅检索最相关的过去经验。作者还发布了 CAME‑Bench，这是一个用于在真实、动态轨迹中测试上下文感知检索的新基准。

关键贡献

STITCH记忆系统：一种轻量级索引方案，将每个对话/轨迹步骤与三部分上下文意图（潜在目标、动作类型、显著实体类型）耦合。
意图驱动检索：在推理时，基于意图与当前步骤的匹配程度过滤并重新排序记忆片段，显著减少“干扰”证据。
CAME‑Bench：一个针对长时程、目标导向交互序列的基准，强调上下文敏感检索，补充现有套件如 LongMemEval。
最先进的结果：STITCH 在平均上比最强基线提升 35.6 %，且随着轨迹长度增长，差距进一步扩大。
全面分析：消融实验表明，意图信号的每个组成部分（目标、动作、实体）都对噪声降低和推理稳定性有贡献。

方法论

轨迹分段 – 将交互日志拆分为步骤（例如，“询问用户位置”， “获取天气”）。
意图提取 – 对每个步骤提取三类信号：
- 潜在目标 – 步骤服务的高层次目标（例如 规划旅行、诊断问题）。
- 动作类型 – 所执行的操作种类（查询、计算、响应）。
- 实体类型 – 步骤中重要的实体类别（位置、日期、设备）。
  这些信号被编码为短向量或标记标签。
记忆索引 – 将步骤的完整文本及其意图标签存入可检索的索引（例如 FAISS 或 Elastic）。
意图感知检索 – 当代理需要回忆先前上下文时，首先将当前意图与已存意图匹配，过滤掉低兼容性条目，然后在剩余子集上执行语义相似度搜索。
评估 – 作者在 CAME‑Bench 和 LongMemEval 上进行测试，衡量检索的精确率/召回率以及下游任务的成功率（例如，正确的计划生成）。

结果与发现

检索准确率：STITCH 在 CAME‑Bench 上实现约 90 % 的 top‑k 精度，而最佳的已有方法约为 65 %。
任务成功率：在长期规划任务中，使用 STITCH 的智能体比基线智能体正确完成的目标多出 42 %。
可扩展性：性能提升随轨迹长度增加；在超过 100 步的序列上，STITCH 相较基线的优势提升至超过 45 %。
消融洞察：移除任何意图组成部分（目标、动作或实体）会导致性能下降 8‑12 %，验证了三部分信号共同消除上下文歧义。

实际意义

更可靠的 AI 助手 – 语音助理、客服机器人或代码生成代理能够在长对话中保持连贯的状态，不会出现“遗忘”或混淆相似实体的情况。
降低计算成本 – 通过使用意图过滤器提前裁剪检索池，STITCH 减少了昂贵的嵌入相似度计算次数，从而实现更快的响应时间。
即插即用集成 – STITCH 与模型无关；它可以位于任何大型语言模型（GPT‑4、Claude、LLaMA）之上，也可以接入任何现有的向量存储，便于在现有流水线中快速改造。
更好的调试与审计 – 明确的意图标签提供了人类可读的追踪，说明为何选择了特定的记忆片段，有助于合规性检查和故障排除。

限制与未来工作

意图提取依赖 – 当前流水线假设对潜在目标和实体类型有相对准确的分类器；噪声意图标签会降低检索效果。
领域泛化 – 基准测试主要聚焦于合成或半结构化任务；在意图高度模糊的真实领域（例如开放式创意写作）可能需要更丰富的意图表示。
大规模历史的可扩展性 – 虽然意图过滤可以缩小候选集合，但对数十亿步骤进行索引仍然面临存储和延迟的挑战。

未来方向包括使用大语言模型端到端学习意图表示、将框架扩展到多模态记忆（图像、代码片段），以及探索用于超长期规划的层次化意图结构。

作者

Ruozhen Yang
Yucheng Jiang
Yueqi Jiang
Priyanka Kargupta
Yunyi Zhang
Jiawei Han

论文信息

arXiv ID: 2601.10702v1
分类: cs.CL, cs.AI, cs.IR
出版时间: 2026年1月15日
PDF: Download PDF

[Paper] 在情境意图中根植代理记忆

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 中毒苹果效应：通过AI Agents技术扩张实现对中介市场的战略操纵

[Paper] MHA2MLA-VLM：在视觉-语言模型中实现 DeepSeek 的经济型多头潜在注意力