[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

발행: 5일 전 (2026년 6월 6일 AM 02:59 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.07512v1

Overview

현재 비전‑언어 모델은 전체 길이의 시각 시퀀스를 처리하면 토큰 폭발과 어텐션 희석이 발생해 수시간 길이의 비디오를 다루는 데 어려움을 겪는다. 이를 해결하기 위해 우리는 인식과 추론을 분리하고, 장시간 비디오 이해를 에이전트형 탐색 과정으로 전환하는 MemDreamer를 제안한다. 플러그‑앤‑플레이 프레임워크로서, MemDreamer는 비디오를 점진적으로 스트리밍하여 계층적 그래프 메모리를 구축한다. 이는 의미적 추상을 위한 상향식 3계층 구조이며, 시공간 및 인과 관계를 포착하는 기본 그래프를 중심으로 한다. 추론 단계에서는 reasoning 모델이 에이전트형 도구 보강 검색을 활용해 계층을 탐색하고, 노드를 검색하며, Observation‑Reason‑Action 루프를 통해 논리적 엣지를 따라 이동한다. 실험 결과 MemDreamer는 네 가지 주요 벤치마크에서 최첨단(SOTA) 성능을 달성했으며, 인간 전문가와의 격차를 단 3.7점으로 좁혔다. 전체 컨텍스트의 2%에 불과한 추론 컨텍스트 윈도우만 사용하면서도 정확도가 12.5점 절대 향상되었다. 또한 통계 분석을 통해 VLM의 논리 추론 성능과 장시간 비디오 이해 벤치마크 사이에 강한 양의 선형 상관관계가 있음을 밝혀냈으며, 에이전트형 능력 확장이 멀티모달 이해의 새로운 패러다임임을 제시한다.

Key Contributions

This paper presents research in the following areas:

cs.CV
cs.AI
cs.CL

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.CV 분야의 발전에 기여한다.

Authors

Cong Chen
Guo Gan
Kaixiang Ji
ChaoYang Zhang
Zhen Yang
Guangming Yao
Hao Chen
Jingdong Chen
Yi Yuan
Chunhua Shen

논문 정보

arXiv ID: 2606.07512v1
분류: cs.CV, cs.AI, cs.CL
발행일: 2026년 6월 5일
PDF: PDF 다운로드

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

Overview

Key Contributions

방법론

실용적 함의

Authors

논문 정보

관련 글

[논문] TEVI: 희소 오토인코더를 활용한 텍스트 조건부 시각 표현 편집으로 비전‑언어 정렬 개선

[논문] 기관 문서 데이터 스냅샷 추출을 위한 오픈소스 레이아웃 감지 모델 벤치마킹

[논문] 아이의 자기중심적 입력을 통한 지속적인 시각·언어 학습

[논문] 뉴런 집단, 규모에 따라 선택성 차이 나타남