[Paper] 쿼리를 도구 호출로 분해하여 Long-Video 키프레임 검색
Source: arXiv - 2605.23826v1
Overview
논문에서는 ToolMerge라는 새로운 접근 방식을 소개한다. 이 방법은 긴 동영상에서 가장 관련성이 높은 키프레임을 추출하여 복잡한 질문에 답한다. 대형 언어 모델(LLM)이 질의를 일련의 “툴 호출”(예: 객체 탐지, OCR, 행동 인식)로 분해하고, 각 툴별 순위를 불리언 논리로 병합함으로써 시스템은 정확하고 검증 가능한 시각적 증거를 검색할 수 있다.
핵심 기여
- LLM‑구동 질의 분해 – 플래너 LLM이 자연어 질문을 일련의 특화된 시각 도구 호출로 자동 변환합니다.
- 불리언 기반 순위 병합 – 도구별 관련성 점수를 논리 연산자(AND, OR, NOT)를 사용해 결합하여 “좋은” 키프레임이 무엇인지에 대한 세밀한 제어를 가능하게 합니다.
- Molmo‑2 Moments (M2M) 벤치마크 – 모든 QA 쌍을 구체적인 시간 구간에 연결하는 새로운 데이터셋으로, 키프레임 검색 품질을 직접 평가할 수 있습니다.
- 경쟁력 있는 성능 – ToolMerge는 세 가지 하위 작업(QA, 질문 검색, 캡션 검색)에서 기존 키프레임 선택기와 동등하거나 능가하며, 특히 캡션 검색에서 5 % 향상을 보입니다.
- 오픈소스 공개 – 코드, 모델, M2M 벤치마크가 공개되어 재현성과 커뮤니티 확장을 장려합니다.
방법론
-
Planner LLM – 사용자 질의(예: “끝에서 충돌하는 자동차의 색은 무엇인가요?”)가 주어지면, 사전 학습된 LLM(예: GPT‑4)이 의도를 파악하고 도구 호출 목록을 생성하며, 각 호출은 대상과 짝을 이룹니다(예:
detect_objects(car),recognize_color(car)). -
Tool Execution – 각 도구는 전체 비디오(또는 대략적인 시간 구간)에서 실행되어 프레임별 관련성 점수를 생성합니다. 도구는 객체 탐지기, OCR 엔진, 행동 인식기, 캡션 생성기 등 기존에 제공되는 비전 모델이면 무엇이든 될 수 있습니다.
-
Merging Rankings – 플래너는 점수를 결합하는 방법을 지정하는 Boolean 식도 제공합니다(예:
detect_objects(car) AND recognize_color(car)). 시스템은 이 식을 평가하여 프레임별 최종 점수를 계산하고, 모든 요구 조건을 만족하는 프레임만을 효과적으로 필터링합니다. -
Keyframe Selection – 병합된 점수가 가장 높은 프레임이 원래 질의에 대한 증거로 반환됩니다. 이 과정이 모듈식이기 때문에 새로운 시각 도구를 추가하는 것은 플래너 프롬프트를 업데이트하는 것만큼 간단합니다.
결과 및 발견
| 작업 | 베이스라인 (단일‑도구) | ToolMerge | Δ (ToolMerge – 베이스라인) |
|---|---|---|---|
| 긴 비디오 QA (정답 정확도) | 71.2 % | 72.0 % | +0.8 % |
| 질문 검색 (recall@5) | 64.5 % | 65.3 % | +0.8 % |
| 캡션 검색 (mAP) | 58.1 % | 63.1 % | +5.0 % |
- 캡션 검색은 가장 큰 향상을 보이며, Boolean 병합이 정확한 텍스트 단서를 포함하는 프레임을 효과적으로 좁힌다는 것을 확인합니다.
- 모든 작업에서 ToolMerge는 전체 쿼리와 각 프레임을 점수화하거나 고정된 분해 스키마에 의존하는 기존 방법보다 동등하거나 더 나은 성능을 유지합니다.
- Ablation 연구 결과, (a) 수작업 규칙 집합 대신 LLM 플래너를 사용하면 유연성이 향상되고, (b) Boolean 연산자 선택(특히
AND)이 정밀도에 중요함을 보여줍니다.
실용적 시사점
- Debuggable QA pipelines – 개발자는 답변을 도출한 정확한 프레임을 표시할 수 있어, 안전이 중요한 애플리케이션(예: 감시 검토, 의료 영상 분석)에서 모델 행동을 감사하고 개선하기가 쉬워집니다.
- Modular visual tooling – ToolMerge가 각 시각 기능을 플러그인으로 취급하기 때문에, 팀은 전체 시스템을 재설계하지 않고도 도메인 특화 탐지기(예: 산업 부품 인식기)를 교체할 수 있습니다.
- Reduced annotation cost – M2M 벤치마크의 구간 기반 질문은 프레임 수준의 전면 라벨링 없이도 검색 품질을 저렴하게 평가할 수 있어, 빠른 프로토타이핑을 장려합니다.
- Enhanced multimodal search – 비디오 아카이브용 검색 엔진은 동일한 분해/병합 논리를 활용해 복잡한 텍스트 제약을 만족하는 키프레임을 표시함으로써, 콘텐츠 제작자와 분석가의 사용자 경험을 향상시킬 수 있습니다.
- Scalable to long videos – 병렬로 실행 가능한 특화 도구에 무거운 작업을 위임함으로써, 이 접근법은 모든 프레임을 단일 모델로 처리할 필요 없이 시간 단위의 녹화를 확장할 수 있습니다.
제한 사항 및 향후 작업
- 도구 의존성 – 최종 키프레임의 품질은 기반 시각 도구의 성능에 의해 제한됩니다; 약한 탐지기는 오류를 전파합니다.
- 플래너 프롬프트 민감도 – LLM의 분해는 표현 변형에 취약할 수 있으며, 실제 환경에서는 보다 견고한 프롬프트 설계나 파인튜닝이 필요할 수 있습니다.
- 시간적 세분성 – 이 방법은 사전 분할된 구간에서는 잘 작동하지만, 세밀한 시간 추론을 요구하는 질의(예: “X 이후 정확히 2초에 무슨 일이 일어나나요?”)를 처리하는 것은 아직 해결되지 않은 과제입니다.
- 향후 연구 방향으로는 저자들이 제시한 바와 같이 불리언 병합 전략을 엔드‑투‑엔드로 학습하고, 멀티모달 트랜스포머를 활용해 도구 라이브러리를 확장하며, 스포츠 분석 및 자율 주행 비디오 로그와 같은 다른 분야에 프레임워크를 적용하는 것이 포함됩니다.
저자
- Michal Shlapentokh‑Rothman
- Prachi Garg
- Yu‑Xiong Wang
- Derek Hoiem
논문 정보
- arXiv ID: 2605.23826v1
- 카테고리: cs.CV, cs.CL
- 발행일: 2026년 5월 22일
- PDF: Download PDF