[Paper] 쿼리를 도구 호출로 분해하여 Long-Video 키프레임 검색

발행: 2주 전 (2026년 5월 23일 AM 01:29 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2605.23826v1

Overview

논문에서는 ToolMerge라는 새로운 접근 방식을 소개한다. 이 방법은 긴 동영상에서 가장 관련성이 높은 키프레임을 추출하여 복잡한 질문에 답한다. 대형 언어 모델(LLM)이 질의를 일련의 “툴 호출”(예: 객체 탐지, OCR, 행동 인식)로 분해하고, 각 툴별 순위를 불리언 논리로 병합함으로써 시스템은 정확하고 검증 가능한 시각적 증거를 검색할 수 있다.

핵심 기여

LLM‑구동 질의 분해 – 플래너 LLM이 자연어 질문을 일련의 특화된 시각 도구 호출로 자동 변환합니다.
불리언 기반 순위 병합 – 도구별 관련성 점수를 논리 연산자(AND, OR, NOT)를 사용해 결합하여 “좋은” 키프레임이 무엇인지에 대한 세밀한 제어를 가능하게 합니다.
Molmo‑2 Moments (M2M) 벤치마크 – 모든 QA 쌍을 구체적인 시간 구간에 연결하는 새로운 데이터셋으로, 키프레임 검색 품질을 직접 평가할 수 있습니다.
경쟁력 있는 성능 – ToolMerge는 세 가지 하위 작업(QA, 질문 검색, 캡션 검색)에서 기존 키프레임 선택기와 동등하거나 능가하며, 특히 캡션 검색에서 5 % 향상을 보입니다.
오픈소스 공개 – 코드, 모델, M2M 벤치마크가 공개되어 재현성과 커뮤니티 확장을 장려합니다.

방법론

Planner LLM – 사용자 질의(예: “끝에서 충돌하는 자동차의 색은 무엇인가요?”)가 주어지면, 사전 학습된 LLM(예: GPT‑4)이 의도를 파악하고 도구 호출 목록을 생성하며, 각 호출은 대상과 짝을 이룹니다(예: detect_objects(car), recognize_color(car)).
Tool Execution – 각 도구는 전체 비디오(또는 대략적인 시간 구간)에서 실행되어 프레임별 관련성 점수를 생성합니다. 도구는 객체 탐지기, OCR 엔진, 행동 인식기, 캡션 생성기 등 기존에 제공되는 비전 모델이면 무엇이든 될 수 있습니다.
Merging Rankings – 플래너는 점수를 결합하는 방법을 지정하는 Boolean 식도 제공합니다(예: detect_objects(car) AND recognize_color(car)). 시스템은 이 식을 평가하여 프레임별 최종 점수를 계산하고, 모든 요구 조건을 만족하는 프레임만을 효과적으로 필터링합니다.
Keyframe Selection – 병합된 점수가 가장 높은 프레임이 원래 질의에 대한 증거로 반환됩니다. 이 과정이 모듈식이기 때문에 새로운 시각 도구를 추가하는 것은 플래너 프롬프트를 업데이트하는 것만큼 간단합니다.

결과 및 발견

작업	베이스라인 (단일‑도구)	ToolMerge	Δ (ToolMerge – 베이스라인)
긴 비디오 QA (정답 정확도)	71.2 %	72.0 %	+0.8 %
질문 검색 (recall@5)	64.5 %	65.3 %	+0.8 %
캡션 검색 (mAP)	58.1 %	63.1 %	+5.0 %

캡션 검색은 가장 큰 향상을 보이며, Boolean 병합이 정확한 텍스트 단서를 포함하는 프레임을 효과적으로 좁힌다는 것을 확인합니다.
모든 작업에서 ToolMerge는 전체 쿼리와 각 프레임을 점수화하거나 고정된 분해 스키마에 의존하는 기존 방법보다 동등하거나 더 나은 성능을 유지합니다.
Ablation 연구 결과, (a) 수작업 규칙 집합 대신 LLM 플래너를 사용하면 유연성이 향상되고, (b) Boolean 연산자 선택(특히 AND)이 정밀도에 중요함을 보여줍니다.

실용적 시사점

Debuggable QA pipelines – 개발자는 답변을 도출한 정확한 프레임을 표시할 수 있어, 안전이 중요한 애플리케이션(예: 감시 검토, 의료 영상 분석)에서 모델 행동을 감사하고 개선하기가 쉬워집니다.
Modular visual tooling – ToolMerge가 각 시각 기능을 플러그인으로 취급하기 때문에, 팀은 전체 시스템을 재설계하지 않고도 도메인 특화 탐지기(예: 산업 부품 인식기)를 교체할 수 있습니다.
Reduced annotation cost – M2M 벤치마크의 구간 기반 질문은 프레임 수준의 전면 라벨링 없이도 검색 품질을 저렴하게 평가할 수 있어, 빠른 프로토타이핑을 장려합니다.
Enhanced multimodal search – 비디오 아카이브용 검색 엔진은 동일한 분해/병합 논리를 활용해 복잡한 텍스트 제약을 만족하는 키프레임을 표시함으로써, 콘텐츠 제작자와 분석가의 사용자 경험을 향상시킬 수 있습니다.
Scalable to long videos – 병렬로 실행 가능한 특화 도구에 무거운 작업을 위임함으로써, 이 접근법은 모든 프레임을 단일 모델로 처리할 필요 없이 시간 단위의 녹화를 확장할 수 있습니다.

제한 사항 및 향후 작업

도구 의존성 – 최종 키프레임의 품질은 기반 시각 도구의 성능에 의해 제한됩니다; 약한 탐지기는 오류를 전파합니다.
플래너 프롬프트 민감도 – LLM의 분해는 표현 변형에 취약할 수 있으며, 실제 환경에서는 보다 견고한 프롬프트 설계나 파인튜닝이 필요할 수 있습니다.
시간적 세분성 – 이 방법은 사전 분할된 구간에서는 잘 작동하지만, 세밀한 시간 추론을 요구하는 질의(예: “X 이후 정확히 2초에 무슨 일이 일어나나요?”)를 처리하는 것은 아직 해결되지 않은 과제입니다.
향후 연구 방향으로는 저자들이 제시한 바와 같이 불리언 병합 전략을 엔드‑투‑엔드로 학습하고, 멀티모달 트랜스포머를 활용해 도구 라이브러리를 확장하며, 스포츠 분석 및 자율 주행 비디오 로그와 같은 다른 분야에 프레임워크를 적용하는 것이 포함됩니다.

저자

Michal Shlapentokh‑Rothman
Prachi Garg
Yu‑Xiong Wang
Derek Hoiem

논문 정보

arXiv ID: 2605.23826v1
카테고리: cs.CV, cs.CL
발행일: 2026년 5월 22일
PDF: Download PDF

[Paper] 쿼리를 도구 호출로 분해하여 Long-Video 키프레임 검색

Overview

핵심 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] ETCHR: 편집을 통한 명확화 및 추론 활용

[논문] AnyMo: 야외 인간 움직임을 위한 기하학 인식·설정 무관 모델링

[Paper] 보는 것에서 생각으로: 지각과 추론을 분리하면 Vision‑Language Models의 Post‑Training이 개선된다

[Paper] 대형 Vision Language Models에서 Chest X-ray Reasoning을 위한 Visual Attribution 재고하기