[Paper] Agentic Learner 与 Grow-and-Refine 多模态语义记忆

发布: (2025年11月27日 GMT+8 02:55)
3 min read
原文: arXiv

Source: arxiv

作者

摘要

MLLM 在孤立查询上表现出强大的推理能力,但它们是全新开始——每个问题独立求解,且常常重复相同的错误。现有的记忆增强代理主要存储过去的轨迹以供重用。然而,基于轨迹的记忆存在简略偏差,逐渐丢失关键的领域知识。更关键的是,即使在真正的多模态问题求解环境中,它也仅记录单一模态的过去行为痕迹,未能保留视觉注意力和逻辑推理共同对解答的贡献。这与人类认知根本不符:语义记忆是多模态且集成的,通过协同但独立的表征流保存视觉和抽象知识。

因此我们提出 ViLoMem,一种双流记忆框架,用于构建紧凑的基于模式的记忆。它分别编码视觉干扰模式和逻辑推理错误,使 MLLM 能够从成功和失败的经验中学习。遵循“增长‑与‑精炼”原则,系统逐步累积并更新多模态语义知识——在保持稳定、可泛化策略的同时避免灾难性遗忘。 在六个多模态基准上,ViLoMem 持续提升 pass@1 准确率,并显著降低重复的视觉和逻辑错误。消融实验验证了带有显式干扰‑幻觉分离的双流记忆的必要性,展示了错误感知多模态记忆对终身和跨域代理学习的价值。

项目页面: ViLoMem page

主题

  • 人工智能 (cs.AI)
  • 机器学习 (cs.LG)

引用

arXiv:2511.21678 (cs.AI)

DOI

https://doi.org/10.48550/arXiv.2511.21678

提交历史

  • v1 – Wed, 26 Nov 2025 18:55:08 UTC (3,626 KB) (Submitted by Weihao Bo)
Back to Blog

相关文章

阅读更多 »