[Paper] VideoAtlas: 로그 연산으로 장시간 비디오 탐색

발행: 1일 전 (2026년 3월 19일 AM 02:20 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2603.17948v1

개요

이 논문은 VideoAtlas를 소개한다. 이는 대부분의 현재 비디오‑언어 모델이 사용하는 손실이 있는 텍스트‑또는‑프레임 요약을 피하면서 장시간 비디오를 표현하고 탐색하는 새로운 방법이다. 비디오를 계층적이고 손실이 없는 그리드로 조직함으로써, 시스템은 언어 모델이 계산량이 로그 수준으로만 증가하는 방식으로 원하는 영역을 “확대”할 수 있게 하여, 수시간에 걸친 영상을 실용적으로 추론할 수 있게 만든다.

핵심 기여

Hierarchical Grid Representation – 비디오의 어느 부분이든 재귀적으로 접근할 수 있게 하는 손실 없는, 캡션이 없는 구조로, 지도 서비스가 지리적 영역을 확대하는 방식과 유사합니다.
Video‑RLM Architecture – 재귀 언어 모델(RLM)과 VideoAtlas 환경을 결합한 Master‑Worker 병렬 프레임워크로, 비디오 이해를 마코프 결정 과정(Markov Decision Process)으로 전환합니다.
Logarithmic Compute Scaling – 처리 비용이 비디오 길이의 log 에 비례해서만 증가함을 입증했으며, 재사용 가능한 그리드 셀 덕분에 30‑60 %의 캐시 적중률을 달성합니다.
Environment Budgeting – 계산량과 정확도 사이의 trade‑off를 제어하는 원칙적인 하이퍼파라미터(최대 탐색 깊이)를 도입합니다.
Adaptive Compute Allocation – 시스템이 세밀한 질문에는 더 많은 계산을, 거친 수준의 질의에는 적은 계산을 자동으로 할당함을 보여줍니다.

방법론

Video Grid Construction – 각 비디오는 다중‑레벨 공간‑시간 그리드로 분해됩니다 (예: level‑0 = 전체 비디오, level‑1 = 10분 청크, level‑2 = 1분 클립 등). 각 셀은 해당 구간의 원시 픽셀 데이터를 저장하여 완전한 시각적 충실도를 유지합니다.
Markov Decision Process (MDP) Formulation – 에이전트의 상태는 현재 셀이며, 행동은 “zoom‑in”, “zoom‑out”, “stay”입니다. 보상은 에이전트의 답변이 정답 주석과 얼마나 잘 일치하는지에 따라 부여됩니다.
Recursive Language Model (RLM) – 하위 문제에 스스로 호출할 수 있는 트랜스포머‑스타일 모델입니다. Master RLM은 탐색할 고수준 셀을 결정하고, Worker RLM은 선택된 하위 셀에서 병렬로 작업하여 각각 시각적 증거를 반환합니다.
Caching & Reuse – 많은 질의가 겹치는 셀을 공유하기 때문에, 셀에 대한 계산된 임베딩이 캐시됩니다. 이후 워커는 이를 즉시 가져올 수 있어 보고된 30‑60 % 캐시 적중률 향상이 발생합니다.
Budget Control – 재귀 깊이에 대한 엄격한 제한(“environment budget”)은 방문하는 셀의 총 수를 제한하여, 개발자가 지연 시간과 답변 품질 사이를 균형 잡을 수 있는 단일 조정값을 제공합니다.

결과 및 발견

벤치마크 (기간)	기준 (선형 연산)	Video‑RLM (로그 연산)	정확도 Δ
1 시간	1× 연산	0.9× 연산	–0.2 %
5 시간	5× 연산	1.3× 연산	–0.5 %
10 시간	10× 연산	1.7× 연산	–0.8 %

연산 증가: 비디오 길이가 10배 늘어날 때, Video‑RLM의 연산량은 약 1.8배만 증가하여 로그 스케일링을 확인할 수 있습니다.
캐시 효과: 모든 실행에서 셀 임베딩의 30‑60 %가 캐시에서 가져와 추가 지연을 줄였습니다.
깊이 예산: 재귀 깊이를 4단계로 제한하면 쿼리당 지연 시간이 2 초 이하로 유지되면서 정확도 손실이 <1 %에 머물러, 깔끔한 연산‑정확도 트레이드오프를 보여줍니다.
적응형 동작: “전체적으로 무슨 일이 있었나요?”와 같은 고수준 질문에서는 마스터가 얕은 레벨에 머물렀고, “42분에 프레임 X에 어떤 객체가 있었나요?”와 같은 상세 질문에서는 워커가 가장 세밀한 그리드까지 파고들어 필요한 연산을 자동으로 할당했습니다.

실용적 함의

확장 가능한 비디오 QA 및 검색: 개발자는 감시 영상, 스포츠 리플레이, 강의 녹화 등에 대한 질문에 답변하는 어시스턴트를 사전‑밀도 캡션이나 프레임별 임베딩을 미리 계산하지 않고도 구축할 수 있습니다.
비용 효율적인 클라우드 배포: 로그 형태의 연산 프로파일은 다시간 비디오에서도 예측 가능한 저비용 추론을 가능하게 하여, 대규모 비디오 이해 API를 제공하는 것이 실현 가능하게 합니다.
실시간 비디오 분석: 워커들이 병렬로 작동하고 캐시된 셀을 재사용할 수 있기 때문에, 실시간 스트리밍 파이프라인은 롤링 VideoAtlas를 유지할 수 있어 즉시 진단(예: 산업용 비디오 피드에서의 이상 탐지)을 가능하게 합니다.
모듈형 통합: VideoAtlas는 작업에 구애받지 않으며, 동일한 그리드가 요약, 캡션 생성, 행동 감지 등 하위 모델에 공급될 수 있어 별도의 전처리 파이프라인 필요성을 줄여줍니다.

제한 사항 및 향후 연구

Memory Footprint: 원시 픽셀 데이터를 모든 그리드 셀에 저장하는 것은 메모리 사용량이 많을 수 있으며, 특히 고해상도 4K 비디오의 경우 그렇다; 저자들은 손실 압축을 가능한 완화책으로 제시했지만 그 영향은 평가되지 않았다.
Grid Granularity Selection: 최적의 시공간 그리드 세분성을 선택하는 것은 아직 휴리스틱에 불과하며, 장면 동역학에 기반한 적응형 그리드 정제는 아직 해결되지 않은 문제이다.
Generalization to Unstructured Domains: 현재 MDP는 비교적 안정적인 비디오 의미를 가정한다; 매우 혼란스럽거나 급변하는 장면(예: 빠른 속도의 비디오 게임)에서는 보다 정교한 탐색 정책이 필요할 수 있다.
Benchmark Diversity: 실험은 시간 규모의 벤치마크에 초점을 맞추고 있으며, 스트리밍, 다중 카메라 설정 또는 멀티모달(오디오‑비주얼) 작업에 대한 평가 확장은 향후 연구 과제로 남겨져 있다.

VideoAtlas는 진정으로 확장 가능하고 무손실인 비디오 이해를 위한 유망한 길을 열어준다—수시간 분량의 영상을 언어 모델이 최소한의 연산 오버헤드로 탐색할 수 있는 지도 형태로 전환한다.

저자

Mohamed Eltahir
Ali Habibullah
Yazan Alshoibi
Lama Ayash
Tanveer Hussain
Naeemullah Khan

논문 정보

arXiv ID: 2603.17948v1
카테고리: cs.CV, cs.AI
출판일: 2026년 3월 18일
PDF: PDF 다운로드

[Paper] VideoAtlas: 로그 연산으로 장시간 비디오 탐색

개요

핵심 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 효율적인 비디오 VLM을 위한 통합 시공간 토큰 스코어링

[Paper] Loc3R-VLM: 언어 기반 로컬라이제이션 및 3D 추론 with Vision-Language Models

[Paper] LoST: 3D 형태를 위한 의미 수준 토큰화

[Paper] MessyKitchens: 접촉이 풍부한 객체 수준 3D 장면 재구성