[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

발행: (2026년 6월 6일 AM 02:59 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.07512v1

Overview

현재 비전‑언어 모델은 전체 길이의 시각 시퀀스를 처리하면 토큰 폭발과 어텐션 희석이 발생해 수시간 길이의 비디오를 다루는 데 어려움을 겪는다. 이를 해결하기 위해 우리는 인식과 추론을 분리하고, 장시간 비디오 이해를 에이전트형 탐색 과정으로 전환하는 MemDreamer를 제안한다. 플러그‑앤‑플레이 프레임워크로서, MemDreamer는 비디오를 점진적으로 스트리밍하여 계층적 그래프 메모리를 구축한다. 이는 의미적 추상을 위한 상향식 3계층 구조이며, 시공간 및 인과 관계를 포착하는 기본 그래프를 중심으로 한다. 추론 단계에서는 reasoning 모델이 에이전트형 도구 보강 검색을 활용해 계층을 탐색하고, 노드를 검색하며, Observation‑Reason‑Action 루프를 통해 논리적 엣지를 따라 이동한다. 실험 결과 MemDreamer는 네 가지 주요 벤치마크에서 최첨단(SOTA) 성능을 달성했으며, 인간 전문가와의 격차를 단 3.7점으로 좁혔다. 전체 컨텍스트의 2%에 불과한 추론 컨텍스트 윈도우만 사용하면서도 정확도가 12.5점 절대 향상되었다. 또한 통계 분석을 통해 VLM의 논리 추론 성능과 장시간 비디오 이해 벤치마크 사이에 강한 양의 선형 상관관계가 있음을 밝혀냈으며, 에이전트형 능력 확장이 멀티모달 이해의 새로운 패러다임임을 제시한다.

Key Contributions

This paper presents research in the following areas:

  • cs.CV
  • cs.AI
  • cs.CL

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.CV 분야의 발전에 기여한다.

Authors

  • Cong Chen
  • Guo Gan
  • Kaixiang Ji
  • ChaoYang Zhang
  • Zhen Yang
  • Guangming Yao
  • Hao Chen
  • Jingdong Chen
  • Yi Yuan
  • Chunhua Shen

논문 정보

  • arXiv ID: 2606.07512v1
  • 분류: cs.CV, cs.AI, cs.CL
  • 발행일: 2026년 6월 5일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »