[Paper] 在情境意图中根植代理记忆

发布: (2026年1月16日 GMT+8 02:55)
7 min read
原文: arXiv

Source: arXiv - 2601.10702v1

概述

在多步骤、目标驱动的任务中,将大型语言模型(LLMs)部署为自主代理仍然脆弱:相同的实体和事实会在不同的隐藏目标下不断出现,且代理的记忆常常检索到错误的上下文信息。论文 “Grounding Agent Memory in Contextual Intent” 引入了 STITCH(Structured Intent Tracking in Contextual History),这是一种记忆索引框架,为每个交互步骤标记紧凑的“意图”信号,使代理能够仅检索最相关的过去经验。作者还发布了 CAME‑Bench,这是一个用于在真实、动态轨迹中测试上下文感知检索的新基准。

关键贡献

  • STITCH记忆系统:一种轻量级索引方案,将每个对话/轨迹步骤与三部分上下文意图(潜在目标、动作类型、显著实体类型)耦合。
  • 意图驱动检索:在推理时,基于意图与当前步骤的匹配程度过滤并重新排序记忆片段,显著减少“干扰”证据。
  • CAME‑Bench:一个针对长时程、目标导向交互序列的基准,强调上下文敏感检索,补充现有套件如 LongMemEval。
  • 最先进的结果:STITCH 在平均上比最强基线提升 35.6 %,且随着轨迹长度增长,差距进一步扩大。
  • 全面分析:消融实验表明,意图信号的每个组成部分(目标、动作、实体)都对噪声降低和推理稳定性有贡献。

方法论

  1. 轨迹分段 – 将交互日志拆分为步骤(例如,“询问用户位置”, “获取天气”)。
  2. 意图提取 – 对每个步骤提取三类信号:
    • 潜在目标 – 步骤服务的高层次目标(例如 规划旅行诊断问题)。
    • 动作类型 – 所执行的操作种类(查询、计算、响应)。
    • 实体类型 – 步骤中重要的实体类别(位置、日期、设备)。
      这些信号被编码为短向量或标记标签。
  3. 记忆索引 – 将步骤的完整文本及其意图标签存入可检索的索引(例如 FAISS 或 Elastic)。
  4. 意图感知检索 – 当代理需要回忆先前上下文时,首先将当前意图与已存意图匹配,过滤掉低兼容性条目,然后在剩余子集上执行语义相似度搜索。
  5. 评估 – 作者在 CAME‑Bench 和 LongMemEval 上进行测试,衡量检索的精确率/召回率以及下游任务的成功率(例如,正确的计划生成)。

结果与发现

  • 检索准确率:STITCH 在 CAME‑Bench 上实现约 90 % 的 top‑k 精度,而最佳的已有方法约为 65 %。
  • 任务成功率:在长期规划任务中,使用 STITCH 的智能体比基线智能体正确完成的目标多出 42 %。
  • 可扩展性:性能提升随轨迹长度增加;在超过 100 步的序列上,STITCH 相较基线的优势提升至超过 45 %。
  • 消融洞察:移除任何意图组成部分(目标、动作或实体)会导致性能下降 8‑12 %,验证了三部分信号共同消除上下文歧义。

实际意义

  • 更可靠的 AI 助手 – 语音助理、客服机器人或代码生成代理能够在长对话中保持连贯的状态,不会出现“遗忘”或混淆相似实体的情况。
  • 降低计算成本 – 通过使用意图过滤器提前裁剪检索池,STITCH 减少了昂贵的嵌入相似度计算次数,从而实现更快的响应时间。
  • 即插即用集成 – STITCH 与模型无关;它可以位于任何大型语言模型(GPT‑4、Claude、LLaMA)之上,也可以接入任何现有的向量存储,便于在现有流水线中快速改造。
  • 更好的调试与审计 – 明确的意图标签提供了人类可读的追踪,说明为何选择了特定的记忆片段,有助于合规性检查和故障排除。

限制与未来工作

  • 意图提取依赖 – 当前流水线假设对潜在目标和实体类型有相对准确的分类器;噪声意图标签会降低检索效果。
  • 领域泛化 – 基准测试主要聚焦于合成或半结构化任务;在意图高度模糊的真实领域(例如开放式创意写作)可能需要更丰富的意图表示。
  • 大规模历史的可扩展性 – 虽然意图过滤可以缩小候选集合,但对数十亿步骤进行索引仍然面临存储和延迟的挑战。

未来方向包括使用大语言模型端到端学习意图表示、将框架扩展到多模态记忆(图像、代码片段),以及探索用于超长期规划的层次化意图结构。

作者

  • Ruozhen Yang
  • Yucheng Jiang
  • Yueqi Jiang
  • Priyanka Kargupta
  • Yunyi Zhang
  • Jiawei Han

论文信息

  • arXiv ID: 2601.10702v1
  • 分类: cs.CL, cs.AI, cs.IR
  • 出版时间: 2026年1月15日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »