[논문] 시청·기억·추론: 인간 시각 비디오 이해와 MLLM

발행: (2026년 6월 6일 AM 01:29 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2606.07433v1

개요

멀티모달 대형 언어 모델(MLLMs)의 등장으로 비디오 이해가 급격히 변하고 있습니다. 연구는 짧은 클립에서 길고 멀티모달이며 지식 집약적인 비디오 시나리오로 이동하고 있습니다. 이러한 시나리오에서는 모델이 희소한 증거, 장거리 의존성, 멀티모달 정렬을 처리하고 제한된 계산 예산 하에서 신뢰할 수 있는 추론을 수행해야 합니다. 본 연구는 LLM 기반 비디오 이해에 대한 인간 시점 관점을 제시하며, 시청(watching), 기억(remembering), **추론(reasoning)**이라는 세 가지 기능적 능력으로 구성합니다. 비디오 작업을 개별 벤치마크로 취급하는 대신, 이 관점은 비디오 MLLM이 증거를 획득하고, 맥락을 유지하며, 근거가 있는 출력을 생성하는 방식을 통합적으로 분석할 수 있는 구조를 제공합니다. 우리는 비디오 이해 시스템을 지각 표현(perceptual representations), 메모리 상태(memory states), 추론 흔적(reasoning traces), 최종 예측(final predictions) 으로 특징짓는 공식화를 도입합니다. 이 공식화를 기반으로 시공간 지각, 효율적인 장비디오 처리, 메모리 모델링, 스트리밍 이해, 충실한 추론에서의 도전 과제를 식별합니다. 대표적인 방법들은 비디오 MLLM 시스템 내 역할에 따라 정리됩니다.

  • 시청(watching): 세밀하고 포괄적인, 오디오-비주얼, 효율적인 지각을 포함합니다.
  • 기억(remembering): 오프라인 메모리와 스트리밍 메모리를 포함합니다.
  • 추론(reasoning): 텍스트 전용 추론과 비디오와 함께 사고하는 방식을 포함합니다.

또한, 우리는 자아시점(e.g., egocentric), 스포츠, 교육, 의료, 서사 비디오와 같은 적용 분야를 살펴보고, 작업 유형, 감독 형식, 모달리티, 능력 차원에 걸친 학습 데이터셋 및 평가 벤치마크를 다룹니다. 마지막으로, 확장 가능하고 메모리 인식이 있으며 증거 기반의 비디오 인텔리전스를 위한 열린 문제와 향후 방향을 제시합니다. 관련 연구는 https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding 에서 지속적으로 추적됩니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다.

  • cs.CV
  • cs.AI
  • cs.MM

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.CV 분야의 발전에 기여합니다.

저자

  • Jiahao Meng
  • Yue Tan
  • Qi Xu
  • Kuan Gao
  • Weisong Liu
  • Yanwei Li
  • Jason Li
  • Lingdong Kong
  • Haochen Wang
  • Qianyu Zhou
  • Jiangning Zhang
  • Guangliang Cheng
  • Yunhai Tong
  • Lu Qi
  • Minghsuan Yang

논문 정보

  • arXiv ID: 2606.07433v1
  • 분류: cs.CV, cs.AI, cs.MM
  • 발행일: 2026년 6월 5일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »