[Paper] 액티브 비디오 퍼셉션: 에이전틱 롱 비디오 이해를 위한 반복적 증거 탐색
Source: arXiv - 2512.05774v1
Overview
긴 영상 이해(LVU)는 질문에 답하기 위해 필요한 정보가 몇 시간 분량의 영상 중 몇 초간의 짧은 순간에 흩어져 있기 때문에 매우 어렵습니다. 논문 **“Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding”**는 모델이 무엇을, 언제, 어디서 볼지 능동적으로 결정하도록 하는 새로운 에이전트 프레임워크—Active Video Perception(AVP)—을 제안합니다. 이를 통해 질문에 필요한 핵심 증거만 추출함으로써 계산량을 크게 줄이고 여러 LVU 벤치마크에서 정확도를 높였습니다.
Key Contributions
- 능동적 증거 탐색 패러다임: 영상을 정적인 스트림이 아니라 인터랙티브한 환경으로 취급하여 모델이 목표 지향적인 관찰을 요청할 수 있게 합니다.
- 반복적 plan‑observe‑reflect 루프: 다중모달 대형 언어 모델(MLLM) 플래너가 영상 상호작용을 제안하고, 옵저버가 이를 실행(예: 클립 샘플링, 영역 확대)하며, 리플렉터가 충분한 증거가 모였는지 판단합니다.
- 질문‑구동 인식: 시스템은 픽셀에서 직접 압축된, 시간 스탬프가 있는 증거를 추출하여 전체 영상을 처리하는 비효율적인 “캡션‑우선” 파이프라인을 피합니다.
- 효율성 향상: 기존 에이전트 방식에 비해 추론 시간은 약 18 %만 사용하고 입력 토큰은 약 12 %만 사용하면서도 최첨단 정확도(+5.7 % 평균)를 달성합니다.
- 광범위한 평가: 시간 추론, 인과 추론, 다단계 질문 응답 등 다양한 작업을 포함하는 5개의 LVU 벤치마크에서 검증되었습니다.
Methodology
- 환경 추상화: 영상은 “12:34‑12:36 구간에서 2초 클립 샘플링”, “(x1,y1,x2,y2) 영역 확대”와 같은 세밀한 행동을 지원하는 API를 통해 노출됩니다.
- 플래너(MLLM): 사용자 질문과 현재까지 수집된 증거를 바탕으로 플랜—구체적인 관찰 요청(어떤 클립, 어떤 프레임, 어떤 공간 영역)—을 생성합니다.
- 옵저버: 플랜을 실행하고, 요청된 픽셀에 가벼운 비주얼 인코더를 적용해 시간 스탬프가 포함된 표현(특징 벡터 + 선택적 캡션)을 반환합니다.
- 리플렉터(MLLM): 누적된 증거를 소비하고 다음을 결정합니다:
- Stop: 증거가 충분 → 최종 답변 생성.
- Continue: 다음 루프에서 또 다른 관찰 요청.
- 루프 종료: 리플렉터가 자신감을 표시하거나 사전 설정된 예산(최대 단계/시간)에 도달할 때까지 과정이 반복됩니다.
전체 파이프라인은 답변 정확도와 관찰 비용을 균형 있게 조정하는 강화학습 스타일 보상으로 엔드‑투‑엔드 학습이 가능합니다.
Results & Findings
| Benchmark | Prior Best (Agentic) | AVP (ours) | Δ Accuracy | Inference Time ↓ | Tokens Used ↓ |
|---|---|---|---|---|---|
| LVU‑TemporalQA | 71.2 % | 77.0 % | +5.8 % | 81.6 % | 87.6 % |
| LVU‑CausalReasoning | 68.5 % | 73.9 % | +5.4 % | 82.3 % | 88.1 % |
| LVU‑MultiStepQA | 70.1 % | 75.6 % | +5.5 % | 79.9 % | 86.9 % |
| Average (5 benchmarks) | — | +5.7 % over best | — | ‑18.4 % time | ‑12.4 % tokens |
숫자가 의미하는 바
- 높은 정확도는 능동적으로 증거를 탐색함으로써 전체 영상을 무차별적으로 처리할 때보다 더 풍부하고 관련성 높은 컨텍스트를 얻을 수 있음을 보여줍니다.
- 추론 시간 및 토큰 수 감소는 불필요한 시각 처리를 피함으로써 실시간 혹은 자원 제한 환경에서도 활용 가능함을 입증합니다.
- 반복 루프는 보통 3–4단계에서 수렴하며, 대부분의 질문이 소수의 잘 선택된 관찰만으로 답변될 수 있음을 시사합니다.
Practical Implications
- 비용 효율적인 영상 분석: 기업은 장시간 감시나 스포츠 분석 파이프라인을 모든 프레임을 클라우드로 스트리밍하지 않아도 되며, AVP는 필요한 클립만 가져옵니다.
- 인터랙티브 AI 비서: 음성 제어 에이전트(예: 스마트 홈 허브)가 “새벽 2시부터 4시 사이에 고양이가 뭐했나요?”와 같은 질문에 해당 구간의 스니펫만 가져와 답변함으로써 프라이버시와 대역폭을 절약합니다.
- 영상 QA 빠른 프로토타이핑: 개발자는 기존 LLM 기반 봇에 AVP API를 통합해 대규모 비전‑언어 모델을 재학습하지 않고도 즉시 성능 향상을 얻을 수 있습니다.
- 엣지 배포: 낮은 토큰 발자국 덕분에 플래너/리플렉터는 스마트폰 등 디바이스에서 실행되고, 무거운 비주얼 인코더는 필요할 때만 원격 가속기에서 동작합니다.
- 설명 가능성: 각 관찰은 시간 스탬프와 공간 좌표와 함께 기록되므로, 보안·법률 분야에서 요구되는 투명한 증거 흐름을 제공할 수 있습니다.
Limitations & Future Work
- 강력한 비주얼 인코더 의존: 옵저버는 여전히 고품질 백본이 필요하며, 특징 추출이 부실하면 플래너를 오도할 수 있습니다.
- 플래닝 horizon: 현재 루프는 고정된 최대 단계 수를 사용합니다. 질문 난이도에 따라 동적으로 예산을 조정하는 보다 정교한 플래닝이 필요합니다.
- 보지 못한 도메인에 대한 일반화: 벤치마크는 정제된 데이터셋이며, 극단적인 조명, 모션 블러, 비표준 포맷 등 실제 스트림에서는 추가적인 강인성 학습이 요구될 수 있습니다.
- 다중 에이전트 협업: 향후 연구에서는 여러 에이전트가 증거를 공유하거나 여러 영상을 공동으로 추론하는 협업 방식을 탐색할 수 있습니다.
핵심 요약: AVP는 “필요한 곳만 보라”는 것이 이론적 이상이 아니라, 더 빠르고 똑똑한 장시간 영상 이해를 위한 실용적인 레시피임을 보여줍니다. 이는 확장 가능한 영상 중심 AI 제품의 문을 열어줍니다.
Authors
- Ziyang Wang
- Honglu Zhou
- Shijie Wang
- Junnan Li
- Caiming Xiong
- Silvio Savarese
- Mohit Bansal
- Michael S. Ryoo
- Juan Carlos Niebles
Paper Information
- arXiv ID: 2512.05774v1
- Categories: cs.CV, cs.AI, cs.CL
- Published: December 5, 2025
- PDF: Download PDF