[Paper] 에이전시 학습자와 Grow-and-Refine 다중모달 의미 메모리
Source: arxiv
Authors
- Weihao Bo
- Shan Zhang
- Yanpeng Sun
- Jingjing Wu
- Qunyi Xie
- Xiao Tan
- Kunbin Chen
- Wei He
- Xiaofan Li
- Na Zhao
- Jingdong Wang
- Zechao Li
Abstract
MLLM은 개별 질의에 대해 강력한 추론 능력을 보이지만, 각 문제를 독립적으로 해결하는 de novo 방식으로 작동하며 종종 같은 실수를 반복합니다. 기존의 메모리‑증강 에이전트는 주로 과거 궤적을 저장해 재사용합니다. 그러나 궤적 기반 메모리는 간결성 편향으로 인해 필수적인 도메인 지식을 점차 잃게 됩니다. 더 심각한 문제는, 실제 멀티모달 문제 해결 상황에서도 과거 행동의 단일 모달리티 추적만을 기록하여 시각적 주의와 논리적 추론이 어떻게 공동으로 해결에 기여했는지를 보존하지 못한다는 점입니다. 이는 인간 인지와 근본적으로 어긋납니다. 인간의 의미 기억은 멀티모달이며 통합되어, 시각적 지식과 추상적 지식을 조정되지만 구별된 표현 흐름을 통해 보존합니다.
이에 우리는 ViLoMem을 소개합니다. 이는 이중 스트림 메모리 프레임워크로, 압축된 스키마 기반 메모리를 구축합니다. 시각적 산만 패턴과 논리적 추론 오류를 별도로 인코딩하여 MLLM이 성공 및 실패 경험으로부터 학습할 수 있게 합니다. grow‑and‑refine 원칙에 따라 시스템은 멀티모달 의미 지식을 점진적으로 축적·업데이트하며, 안정적이고 일반화 가능한 전략을 유지하면서 재앙적 망각을 방지합니다. 여섯 개의 멀티모달 벤치마크에서 ViLoMem은 일관되게 pass@1 정확도를 향상시키고 시각적·논리적 오류의 반복을 크게 감소시켰습니다. 실험적 분석은 명시적인 산만‑환상 분리를 갖춘 이중 스트림 메모리의 필요성을 확인했으며, 오류 인식 멀티모달 메모리가 평생 및 교차 도메인 에이전트 학습에 가치를 제공함을 보여줍니다.
Project page: ViLoMem page
Subjects
- Artificial Intelligence (cs.AI)
- Machine Learning (cs.LG)
Citation
arXiv:2511.21678 (cs.AI)
DOI
https://doi.org/10.48550/arXiv.2511.21678
Submission History
- v1 – Wed, 26 Nov 2025 18:55:08 UTC (3,626 KB) (Submitted by Weihao Bo)