[Paper] Video-CoM: 인터랙티브 비디오 추론 via Chain of Manipulations

발행: (2025년 11월 29일 오전 03:59 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2511.23477v1

개요

이 논문은 Video‑CoM이라는 새로운 “인터랙티브 비디오 추론” 접근법을 소개한다. 이 방법은 모델이 비디오를 정적인 스냅샷이 아니라 활성 작업 공간으로 취급하도록 한다. 모델은 되감기, 확대, 영역 집중, 프레임 추출과 같은 시각적 조작을 반복적으로 수행함으로써 단계별로 증거를 수집하고, 그 결과 더 깊은 시공간 이해와 어려운 비디오 질문‑답변(VQA) 과제에서 높은 정확도를 달성한다.

주요 기여

  • 인터랙티브 추론 패러다임: 한 번만 “생각”하는 수동적인 비디오 인코딩에서 벗어나, 추론 중에 모델이 비디오 구간을 다시 보기·다시 집중할 수 있는 루프를 만든다.
  • 조작 체인 (CoM): 모델이 증거를 모으기 위해 실행하도록 학습되는, 시간 자르기, 공간 확대, 객체 추적 등 시각적 행동들의 구조화된 순서.
  • Video‑CoM‑Instruct 데이터셋: 다단계 조작 추론을 위해 특별히 설계된 18 K개의 instruction‑tuned 예시.
  • GRPO 학습: 단계‑레벨 추론 보상을 제공하는 새로운 Group Relative Policy Optimization 강화학습 알고리즘으로, 일관되고 근거 있는 조작 정책을 장려한다.
  • 강력한 실증적 향상: 9개의 비디오‑추론 벤치마크에서 평균 3.6 % 향상을 달성했으며, 사용된 지도 학습 샘플은 약 25 K, RL 샘플은 3 K에 불과해 경쟁 모델보다 훨씬 적은 데이터로 학습한다.
  • 해석 가능성: 조작 체인이 인간이 읽을 수 있는 형태이므로 모델의 결정을 디버깅하고 신뢰하기가 쉽다.

방법론

  1. 비디오 작업 공간: 원시 비디오는 변경 가능한 버퍼에 저장된다. 모델은 seek(t), crop(x,y,w,h), track(object), sample_frame() 같은 행동으로 이 버퍼를 질의할 수 있다.
  2. 언어‑시각 루프:
    • LLM은 텍스트 프롬프트(질문 + 지시)를 받는다.
    • LLM은 조작 명령과 짧은 텍스트 근거를 출력한다.
    • 명령은 비디오 버퍼에서 실행되어 시각적 관찰(예: 잘라낸 프레임)을 만든다.
    • 관찰은 인코딩되어 LLM에 다시 입력되고, LLM은 다음 단계를 결정한다.
    • 충분한 증거가 모이면 종료 토큰이 나오면서 루프가 종료된다.
  3. 학습 파이프라인:
    • 지도 미세조정(SFT): Video‑CoM‑Instruct 데이터셋을 사용해 질문을 조작 시퀀스로 매핑하는 기본 능력을 학습한다.
    • 강화학습(GRPO): 두 가지 보상 신호를 이용해 정책을 정제한다. (a) 정답 정확도(희소)와 (b) 단계‑레벨 추론 품질(밀도)으로, 후자는 생성된 근거와 정답 증거 사이의 정렬을 측정한다.
  4. 모델 아키텍처: 고정된 멀티모달 인코더(예: CLIP‑ViT)가 시각 관찰을 처리하고, 디코더‑전용 LLM(예: LLaMA‑2)이 언어 측을 담당하며 다음 행동 토큰 시퀀스를 예측한다.

결과 및 고찰

BenchmarkPrior SOTAVideo‑CoM (ours)Δ
MSVD‑QA71.2 %75.4 %+4.2
TGIF‑QA68.9 %73.1 %+4.2
ActivityNet‑QA63.5 %66.8 %+3.3
… (total 9)+3.6 % avg
  • 샘플 효율성: 많은 경쟁 MLLM이 1 M 개 이상의 비디오‑텍스트 쌍을 사용하는 반면, 약 28 K 개의 학습 예시만으로 위와 같은 향상을 달성한다.
  • 소거 실험: 단계‑레벨 보상을 제거하면 정확도가 약 2 % 감소하고 조작 체인이 더 잡음이 많아져, 추론‑인식 RL의 중요성을 확인한다.
  • 해석 가능성: 조작 체인을 시각화하면 모델이 질문에 답하기 위해 정확히 필요한 시간 창과 공간 영역을 자주 격리한다는 점이 드러나며, 이는 베이스라인 모델에서는 관찰되지 않는다.

실용적 함의

  • 디버깅 가능한 비디오 AI: 개발자는 조작 체인을 검사해 특정 답을 내렸는지 이해할 수 있어, 자율주행 비디오 로그와 같은 안전‑중요 분야에서 문제 해결이 쉬워진다.
  • 데이터 비용 절감: 샘플 효율적인 학습 방식 덕분에 기업은 대규모 주석 예산 없이도 자체 비디오 코퍼스에 강력한 비디오 추론 모델을 파인튜닝할 수 있다.
  • 향상된 인터랙티브 앱: 음성 비서, 비디오 편집기, 감시 분석 등에서 “사람이 왼쪽으로 돌던 순간을 보여줘”와 같은 후속 질문을 하고, 즉석에서 구체적인 시각 증거를 얻을 수 있다.
  • 모듈식 통합: 시각 행동이 API‑형식 명령으로 정의되므로, Video‑CoM은 기존 비디오 파이프라인(FFmpeg, OpenCV 등)에 전체 모델 스택을 재설계하지 않고도 쉽게 삽입할 수 있다.
  • LLM의 grounding 강화: 이 접근법은 대형 언어 모델에 능동적인 지각 능력을 부여하는 구체적인 경로를 제시하며, 보다 일반적인 AI 어시스턴트가 감각 입력을 조작할 수 있는 발판이 된다.

제한점 및 향후 연구

  • 행동 공간의 단순성: 현재 조작은 기본적인 크롭, 시간 탐색, 객체 추적에 국한된다. 광학 흐름 분석, 3D 포즈 추정 등 풍부한 행동이 추가되면 추론 깊이가 더욱 향상될 수 있다.
  • 장시간 비디오에 대한 확장성: 작업 공간이 전체 비디오에 무작위 접근을 전제로 하기 때문에, 스트리밍 혹은 매우 긴 비디오에서는 계층적 버퍼링 전략이 필요할 수 있다.
  • 보상 설계: 단계‑레벨 추론 보상이 성능을 끌어올리지만, (예: 정답 증거와의 겹침) 휴리스틱에 의존하므로 완전히 새로운 도메인에 일반화되지 않을 위험이 있다.
  • 다중 모달 입력에 대한 일반화: 오디오, 자막, 센서 데이터 등으로 패러다임을 확장하는 것은 아직 해결되지 않은 과제이다.

저자들은 보다 풍부한 조작 프리미티브, 계층적 비디오 메모리, 그리고 오디오‑비주얼 공동 추론을 다음 단계로 탐구할 것을 제안한다.

저자

  • Hanoona Rasheed
  • Mohammed Zumri
  • Muhammad Maaz
  • Ming-Hsuan Yang
  • Fahad Shahbaz Khan
  • Salman Khan

논문 정보

  • arXiv ID: 2511.23477v1
  • Categories: cs.CV
  • Published: November 28, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…