[Paper] One-to-Many Temporal Grounding을 향하여

발행: 6일 전 (2026년 6월 5일 AM 12:31 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2606.06294v1

Overview

Temporal Grounding (TG)은 텍스트 질의에 해당하는 비디오 구간을 찾아내는 작업을 의미합니다. 기존 연구는 주로 단일 구간 검색에 초점을 맞추었습니다. 그러나 실제 상황에서는 하나의 질의에 대해 여러 개의 서로 떨어진 구간을 찾아야 하는 경우가 많으며, 이를 One-to-Many Temporal Grounding (OMTG) 라고 명명합니다. 기존 최첨단 MLLM들은 일대일 설정에 최적화되어 있어, 사건 개수 인식이 부족해 거의 0점에 가까운 성능을 보이는 경우가 많습니다.

이 격차를 해소하기 위해 우리는 다음과 같은 세 가지 핵심 기여를 포함한 체계적인 솔루션을 제시합니다:

Benchmark: 최초의 포괄적인 OMTG 벤치마크를 구축하고, 평가 지표로 Count Accuracy (C‑Acc) 와 Effective Temporal F1 (EtF1) 를 도입했습니다.
Dataset: 정교한 구축 파이프라인을 통해 56 k 샘플로 구성된 고품질 OMTG 데이터셋을 제작했습니다.
Reward Functions: OMTG에 특화된 새로운 시간 및 캡션 보상 함수를 개발했습니다. 캡션 보상은 Chain‑of‑Thought 추론을 활용해 조밀한 비디오 캡션을 기반으로 정책 최적화를 정밀도와 완전성을 동시에 향하도록 명시적으로 안내합니다.

광범위한 실험 결과, 우리 모델은 OMTG Bench에서 43.65 % 라는 새로운 최첨단 EtF1 점수를 달성했으며, Gemini 2.5 Pro와 Seed‑1.8보다 각각 15.85 %, 15.61 % 높은 성능을 보였습니다.

Key Contributions

cs.CV
cs.AI

Methodology

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

Practical Implications

이 연구는 cs.CV 분야의 발전에 기여합니다.

Authors

Qi Xu
Yue Tan
Shihao Chen
Jiahao Meng
Anna Wang
Shunping Ji
Hao Fei
Jason Li

Paper Information

arXiv ID: 2606.06294v1
Categories: cs.CV, cs.AI
Published: June 4, 2026
PDF: Download PDF

[Paper] One-to-Many Temporal Grounding을 향하여

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 장기 컨텍스트 자율주행을 위한 계획에 맞춘 토큰 압축

[논문] TEVI: 희소 오토인코더를 활용한 텍스트 조건부 시각 표현 편집으로 비전‑언어 정렬 개선

[논문] 시청·기억·추론: 인간 시각 비디오 이해와 MLLM