[Paper] VideoSeek: Long-Horizon 비디오 에이전트와 Tool-Guided 탐색

발행: 1개월 전 (2026년 3월 21일 오전 02:58 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2603.20185v1

개요

VideoSeek는 장기 비디오 이해를 위한 새로운 패러다임을 제시합니다: 모든 프레임을 스캔하는 대신, 모델은 답하려는 질문에 기반해 가장 유익한 클립을 적극적으로 찾아냅니다. 비디오를 논리적 흐름으로 간주하고 이를 목표 지향 관찰을 위한 가벼운 “툴킷”과 결합함으로써, VideoSeek는 필요한 프레임 수를 크게 줄이면서 여러 벤치마크 작업에서 최첨단 정확도를 제공합니다.

주요 기여

Active seeking strategy – 전체 프레임을 일일이 파싱하는 방식을 쿼리‑드리븐, 증거‑중심 검색으로 대체합니다.
Think‑Act‑Observe loop – 모델이 계획을 세우고, 탐색 행동을 실행하며, 다음 추론 단계 전에 새로운 관찰을 통합할 수 있게 하는 3단계 추론 사이클입니다.
Multi‑granular observation toolkit – “타임스탬프 t 주변의 5초 클립 샘플링”, “자막 추출”, “객체 탐지기 실행” 등과 같은 원시 연산들을 실시간으로 호출할 수 있는 도구 집합입니다.
Significant efficiency gains – 기존 비디오 에이전트에 비해 프레임 사용량을 최대 93 %까지 감소시키면서 동등하거나 더 나은 성능을 달성합니다.
Strong empirical results – 네 개의 비디오‑언어 벤치마크에서 새로운 기록을 세우며, 특히 기본 GPT‑5 모델 대비 LVBench에서 절대값 기준 +10.2 % 향상을 보였습니다.

방법론

Logical Flow Modeling – 비디오는 고수준 이벤트 시퀀스로 추상화됩니다 (예: “사람이 컵을 집는다 → 물을 붓는다 → 마신다”). 이 거친 표현은 모델이 다음에 어디를 살펴봐야 할지 안내합니다.
Think‑Act‑Observe Loop
- Think: 사용자 질의와 지금까지 수집된 관찰을 바탕으로, 언어 모델은 계획을 생성합니다—비디오의 어느 부분에 답이 있을 가능성이 높은지.
- Act: 그 계획을 툴킷 명령으로 변환합니다 (예: “타임스탬프 120 초로 이동하고 3초 클립을 추출”).
- Observe: 선택된 클립을 처리합니다 (비전 인코더, OCR, 객체 탐지기 등) 그리고 얻어진 특징을 다시 언어 모델에 전달합니다.
Iterative Reasoning – 루프는 모델이 충분한 근거가 있다고 판단하거나 최대 단계 예산에 도달할 때까지 반복됩니다.
Toolkit Design – 툴킷은 저비용·재사용 가능한 작업(프레임 샘플링, 자막 추출, 오디오 전사)을 제공하며, 전체 비디오를 메모리에 로드하지 않고도 더 풍부한 관찰을 결합할 수 있습니다.

결과 및 발견

Benchmark	Prior Video Agent (frames)	VideoSeek (frames)	Accuracy Δ
LVBench	30 % (베이스라인)	0.7 % (≈93 % 감소)	+10.2 %
MSR‑VTT‑QA	45 % frames	5 % frames	+2.3 %
Ego4D‑NLQ	40 % frames	6 % frames	+1.8 %
Charades‑Ego	50 % frames	7 % frames	+1.5 %

효율성: VideoSeek은 탐욕적인 에이전트가 필요로 하는 프레임의 10 % 이하를 지속적으로 사용합니다.
정확도: 시각 입력이 감소했음에도 불구하고, 모델은 전체 프레임 기반 베이스라인의 성능과 일치하거나 이를 능가합니다.
소거 실험: 논리 흐름 사전(logical‑flow prior)을 제거하면 정확도가 약 4 % 감소하여 그 중요성을 확인할 수 있습니다. 툴킷의 다중‑입자 행동(multi‑granular actions)은 추가로 약 2 % 향상을 제공합니다.

Practical Implications

Cost‑Effective Video Analytics – 기업은 모든 프레임을 처리하는 저장 및 계산 오버헤드 없이 일반 GPU에서 대규모 비디오 QA 또는 요약 파이프라인을 실행할 수 있습니다.
Real‑Time Assistants – think‑act‑observe 루프를 시간 예산으로 제한함으로써 반응성이 높은 비디오 기반 어시스턴트를 구현할 수 있습니다 (예: 라이브 스트림에서 발표자가 X를 언급한 순간 찾기).
Edge Deployment – 짧은 클립 몇 개만 디코딩하면 되므로 VideoSeek을 스마트폰이나 임베디드 카메라와 같은 디바이스에서 추론하도록 적용할 수 있습니다.
Tool Integration – 모듈식 툴킷은 기존 비전 API(객체 탐지, OCR, 음성‑텍스트 변환)와 잘 맞으며, 전체 모델을 재학습하지 않고도 개발자가 자체 특화 모듈을 연결할 수 있게 합니다.
Improved Debugging – 명시적인 “seek” 동작은 모델이 증거를 찾은 위치의 추적을 제공하여, 결정 사항을 감사하고 오류 사례를 디버깅하기 쉽게 합니다.

제한 사항 및 향후 연구

정확한 시계열 논리 의존 – 이 접근법은 비교적 깔끔한 고수준 이벤트 구분을 전제로 합니다; 잡음이 많거나 매우 얽힌 행동은 탐색자를 오도할 수 있습니다.
툴킷 범위 – 유연하지만 현재 원시 요소 집합은 수작업으로 제작되었습니다; 이를 더 이색적인 모달리티(예: 깊이, 열)로 확장하려면 추가 엔지니어링이 필요합니다.
추론 단계의 확장성 – 매우 긴 비디오(시간 단위)의 경우, 생각‑행동‑관찰 사이클 수가 여전히 병목이 될 수 있습니다; 더 똑똑한 조기 종료 기준이 연구 과제로 남아 있습니다.
보지 못한 도메인에 대한 일반화 – 논리 흐름 사전은 훈련 데이터셋에서 학습됩니다; 이벤트 구조가 매우 다른 도메인(예: 의료 수술 비디오)으로 전이하려면 도메인 특화 미세 조정이 필요할 수 있습니다.

저자들은 학습된 이벤트‑그래프 표현, 적응형 툴킷 생성, 그리고 멀티모달 LLM과의 더 긴밀한 통합을 다음 단계로 탐색할 것을 제안합니다.

저자

Jingyang Lin
Jialian Wu
Jiang Liu
Ximeng Sun
Ze Wang
Xiaodong Yu
Jiebo Luo
Zicheng Liu
Emad Barsoum

논문 정보

arXiv ID: 2603.20185v1
분류: cs.CV, cs.AI, cs.CL
출판일: 2026년 3월 20일
PDF: PDF 다운로드

[Paper] VideoSeek: Long-Horizon 비디오 에이전트와 Tool-Guided 탐색

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] Loc3R-VLM: 언어 기반 로컬라이제이션 및 3D 추론 with Vision-Language Models

[Paper] LumosX: 모든 정체성을 그들의 속성과 연결하여 맞춤형 비디오 생성

[Paper] 신뢰성 측정은 측정 방법에 따라 달라진다: Classifier Sensitivity in LLM Chain-of-Thought Evaluation

[Paper] Large Language Models에서 효율적인 Uncertainty Quantification을 위한 Semantic Token Clustering