[Paper] MAGMA：一种基于多图的代理记忆架构用于 AI 代理

发布: 1个月前 (2026年1月7日 GMT+8 02:29)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.03236v1

概述

本文介绍了 MAGMA，一种面向 AI 代理的新型记忆架构，突破了许多 Retrieval‑Augmented Generation (RAG) 系统中使用的传统“single‑bucket”外部记忆。通过将记忆组织为多个正交图——语义、时间、因果和实体——MAGMA 使代理能够针对每个查询遍历恰当的关系，从而实现更透明、更准确的长上下文推理。

关键贡献

多图记忆表示：每个存储的事实同时是四个不同图（语义相似性、时间顺序、因果链接和实体共现）中的一个节点。
策略引导检索：检索被视为强化学习式的遍历策略，决定沿哪些图边进行搜索，使搜索能够适应查询意图。
代理记忆抽象：将 存储的内容 与 检索方式 解耦，实现对推理路径的细粒度控制和可解释性。
实证提升：在 LoCoMo 和 LongMemEval 基准测试中，MAGMA 在长时程推理任务上相较于之前的代理记忆系统提升了 4–9 % 的绝对准确率。
开源实现：作者发布了代码和预训练的图编码器，便于复现和下游实验。

方法论

Memory Encoding
- 当新信息到达（例如对话轮次或知识片段）时，先对其进行一次嵌入，然后将其作为节点插入四个独立的图中：
  - Semantic graph – 基于嵌入余弦相似度的边。
  - Temporal graph – 将较新的项目指向较旧项目的有向边。
  - Causal graph – 从显式的因果陈述中推断的边，或通过因果分类器学习得到的边。
  - Entity graph – 连接共享命名实体的项目的边。
Policy‑Guided Traversal
- 给定用户查询，轻量级的 policy network 预测一系列 graph‑type selections（例如“先使用 semantic，再跟随 temporal”）。
- 在每一步，policy 通过遍历所选图的边来扩展前沿，并使用 relevance model 为候选节点打分。
- 当达到预设的跳数预算或满足置信度阈值时停止遍历，生成一个排序后的记忆项列表。
Context Construction & Generation
- 将检索到的项拼接（或层次化组织），作为 augmented context 输入大型语言模型（LLM）。
- 由于检索路径是显式的，系统还能将图遍历过程展示为“reasoning trace”，用于调试或向用户解释。

结果与发现

基准	基线 (RAG)	先前的代理记忆	MAGMA
LoCoMo (long‑context QA)	62.3 %	68.7 %	73.9 %
LongMemEval (multi‑step reasoning)	55.1 %	60.4 %	69.2 %

更高的准确率 来源于能够获取时间上或因果上相关的事实，而纯语义相似度搜索会错过这些事实。
可解释性：作者展示了案例研究，检索到的图遍历与人类的逻辑步骤相吻合，而单一的记忆结构无法呈现。
效率：尽管维护了四个图，遍历预算仍保持在低水平（平均约 5 步），使延迟与标准 RAG 流程相当。

实际影响

面向开发者的调试 – 显式的遍历轨迹可以记录或可视化，帮助工程师精准定位模型回答错误的原因。
细粒度控制 – 团队可以在不重新训练整个 LLM 的情况下，使策略倾向于特定图（例如，为故障排查机器人优先考虑因果链接）。
可扩展的长期代理 – 需要在数周内记住事件的应用，如自主助理、仿真控制或研究助理，可受益于时间和因果结构化。
即插即用 – 由于 MAGMA 位于 LLM 与外部数据存储之间，现有服务（OpenAI、Anthropic 等）只需对生成流水线进行最小改动即可采用。

限制与未来工作

图构建开销 – 构建和维护因果图与实体图需要额外的标注或可靠的分类器，在低资源领域可能会有噪声。
策略学习数据 – 遍历策略在合成或基准查询上进行训练；转移到高度专业化的行业词汇可能需要进一步微调。
对数十亿节点的可扩展性 – 虽然当前实验处理了最多数十万条记忆，但将多图结构扩展到真正大规模语料仍是一个未解决的挑战。

未来的方向包括探索层次化图抽象、将检索增强的微调集成到大型语言模型本身，以及将 MAGMA 扩展到多模态记忆（例如图像、代码片段）。

作者

Dongming Jiang
Yi Li
Guanpeng Li
Bingzhe Li

论文信息

arXiv ID: 2601.03236v1
类别: cs.AI
发布时间: 2026年1月6日
PDF: 下载 PDF

[Paper] MAGMA：一种基于多图的代理记忆架构用于 AI 代理

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 浅层图卷积神经网络训练的流形极限

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] LookAroundNet：使用 Transformers 扩展时间上下文以实现临床可行的 EEG 癫痫发作检测

[Paper] 通过非参数偏离定理检测离散信号中的随机性