[Paper] 在情境意图中根植代理记忆
发布: (2026年1月16日 GMT+8 02:55)
7 min read
原文: arXiv
Source: arXiv - 2601.10702v1
概述
在多步骤、目标驱动的任务中,将大型语言模型(LLMs)部署为自主代理仍然脆弱:相同的实体和事实会在不同的隐藏目标下不断出现,且代理的记忆常常检索到错误的上下文信息。论文 “Grounding Agent Memory in Contextual Intent” 引入了 STITCH(Structured Intent Tracking in Contextual History),这是一种记忆索引框架,为每个交互步骤标记紧凑的“意图”信号,使代理能够仅检索最相关的过去经验。作者还发布了 CAME‑Bench,这是一个用于在真实、动态轨迹中测试上下文感知检索的新基准。
关键贡献
- STITCH记忆系统:一种轻量级索引方案,将每个对话/轨迹步骤与三部分上下文意图(潜在目标、动作类型、显著实体类型)耦合。
- 意图驱动检索:在推理时,基于意图与当前步骤的匹配程度过滤并重新排序记忆片段,显著减少“干扰”证据。
- CAME‑Bench:一个针对长时程、目标导向交互序列的基准,强调上下文敏感检索,补充现有套件如 LongMemEval。
- 最先进的结果:STITCH 在平均上比最强基线提升 35.6 %,且随着轨迹长度增长,差距进一步扩大。
- 全面分析:消融实验表明,意图信号的每个组成部分(目标、动作、实体)都对噪声降低和推理稳定性有贡献。
方法论
- 轨迹分段 – 将交互日志拆分为步骤(例如,“询问用户位置”, “获取天气”)。
- 意图提取 – 对每个步骤提取三类信号:
- 潜在目标 – 步骤服务的高层次目标(例如 规划旅行、诊断问题)。
- 动作类型 – 所执行的操作种类(查询、计算、响应)。
- 实体类型 – 步骤中重要的实体类别(位置、日期、设备)。
这些信号被编码为短向量或标记标签。
- 记忆索引 – 将步骤的完整文本及其意图标签存入可检索的索引(例如 FAISS 或 Elastic)。
- 意图感知检索 – 当代理需要回忆先前上下文时,首先将当前意图与已存意图匹配,过滤掉低兼容性条目,然后在剩余子集上执行语义相似度搜索。
- 评估 – 作者在 CAME‑Bench 和 LongMemEval 上进行测试,衡量检索的精确率/召回率以及下游任务的成功率(例如,正确的计划生成)。
结果与发现
- 检索准确率:STITCH 在 CAME‑Bench 上实现约 90 % 的 top‑k 精度,而最佳的已有方法约为 65 %。
- 任务成功率:在长期规划任务中,使用 STITCH 的智能体比基线智能体正确完成的目标多出 42 %。
- 可扩展性:性能提升随轨迹长度增加;在超过 100 步的序列上,STITCH 相较基线的优势提升至超过 45 %。
- 消融洞察:移除任何意图组成部分(目标、动作或实体)会导致性能下降 8‑12 %,验证了三部分信号共同消除上下文歧义。
实际意义
- 更可靠的 AI 助手 – 语音助理、客服机器人或代码生成代理能够在长对话中保持连贯的状态,不会出现“遗忘”或混淆相似实体的情况。
- 降低计算成本 – 通过使用意图过滤器提前裁剪检索池,STITCH 减少了昂贵的嵌入相似度计算次数,从而实现更快的响应时间。
- 即插即用集成 – STITCH 与模型无关;它可以位于任何大型语言模型(GPT‑4、Claude、LLaMA)之上,也可以接入任何现有的向量存储,便于在现有流水线中快速改造。
- 更好的调试与审计 – 明确的意图标签提供了人类可读的追踪,说明为何选择了特定的记忆片段,有助于合规性检查和故障排除。
限制与未来工作
- 意图提取依赖 – 当前流水线假设对潜在目标和实体类型有相对准确的分类器;噪声意图标签会降低检索效果。
- 领域泛化 – 基准测试主要聚焦于合成或半结构化任务;在意图高度模糊的真实领域(例如开放式创意写作)可能需要更丰富的意图表示。
- 大规模历史的可扩展性 – 虽然意图过滤可以缩小候选集合,但对数十亿步骤进行索引仍然面临存储和延迟的挑战。
未来方向包括使用大语言模型端到端学习意图表示、将框架扩展到多模态记忆(图像、代码片段),以及探索用于超长期规划的层次化意图结构。
作者
- Ruozhen Yang
- Yucheng Jiang
- Yueqi Jiang
- Priyanka Kargupta
- Yunyi Zhang
- Jiawei Han
论文信息
- arXiv ID: 2601.10702v1
- 分类: cs.CL, cs.AI, cs.IR
- 出版时间: 2026年1月15日
- PDF: Download PDF