[Paper] ChronosOmni: Omni 대형 언어 모델의 시간 인식 개선

발행: (2025년 12월 11일 오전 02:22 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.09841v1

Overview

ChronusOmni는 비디오와 오디오 스트림 모두에서 언제 사건이 발생하는지를 추론할 수 있는 새로운 “omni” 대형 언어 모델입니다. 타임스탬프를 멀티모달 표현에 긴밀히 통합함으로써, 모델은 명시적인 타이밍이 필요한 질문(예: “00:45에 무슨 일이 일어나나요?”)은 물론, 암시적인 교차‑모달 타이밍 질문(예: “내레이터가 ‘폭풍이 다가오고 있다’고 말할 때 화면에 무엇이 보이나요?”)에도 답할 수 있습니다. 저자들은 또한 시청각 시간 정합 연구를 촉진하기 위해 새로운 벤치마크 ChronusAV를 공개했습니다.

Key Contributions

  • Unified timestamp tokenization: 시각 및 오디오 임베딩과 매 시간 단계마다 교차하는 특수 토큰을 도입하여, 단일 트랜스포머가 모달리티 간의 시간 관계를 모델링할 수 있게 합니다.
  • Reinforcement‑learning fine‑tuning: 순서가 뒤섞인 예측을 명시적으로 벌점하고, 세밀한 시간 정렬을 보상하는 보상 함수를 설계하여 모델의 연대감 인식을 강화합니다.
  • ChronusAV dataset: 명시적·암시적 정합 작업을 위한 촘촘한 타임스탬프가 부착된 대규모 모달리티‑완전 비디오‑오디오 클립 컬렉션.
  • State‑of‑the‑art performance: ChronusAV에서 기존 방법 대비 30 % 이상의 상대적 향상을 달성했으며, 여러 기존 시간 정합 벤치마크에서도 새로운 최고 점수를 기록했습니다.
  • Preserved general video/audio understanding: 추가된 시간 메커니즘이 표준 비디오‑질문응답이나 오디오 분류 작업의 성능을 저하시키지 않음을 입증했습니다.

Methodology

  1. Temporal Token Insertion – 고정된 시간 슬라이스(예: 0.5 s)마다 timestamp token을 입력 시퀀스에 삽입합니다. 이 토큰은 시각 프레임 임베딩 및 해당 오디오 스펙트로그램 임베딩과 함께 [timestamp, visual, audio] 삼중항을 형성합니다. 이렇게 하면 트랜스포머가 시간 자체를 또 다른 토큰 유형으로 취급해 순차적인 단일 시퀀스를 주의(attention)할 수 있습니다.

  2. Multimodal Encoder – 사전 학습된 비전 인코더(예: CLIP ViT)와 오디오 인코더(예: wav2vec 2.0)가 각각 모달리티‑전용 벡터를 생성합니다. 이 벡터들을 공통 차원으로 투영하고 timestamp token과 결합한 뒤, 언어 모델 백본(예: LLaMA)에 입력합니다.

  3. Reinforcement Learning (RL) Stage – ChronusAV에 대한 지도 학습 사전 훈련 후, Proximal Policy Optimization을 이용해 RL로 미세 조정합니다. 두 가지 맞춤 보상이 사용됩니다:

    • Temporal Order Reward – 예측된 타임스탬프가 실제 연대 순서를 따를 때 높은 점수를 부여합니다.
    • Cross‑Modal Alignment Reward – 시각 이벤트와 해당 오디오 단서(또는 그 반대)를 올바르게 짝짓도록 모델을 장려합니다.
  4. Training Pipeline – 저자들은 먼저 일반 비디오‑언어 코퍼스(일반 능력 유지)와 ChronusAV(시간 지식 주입)를 혼합해 학습합니다. 이후 RL 단계에서 시간 정확성을 미세 조정하면서 파국적 망각(catastrophic forgetting)을 방지합니다.

Results & Findings

BenchmarkMetric (↑ better)ChronusOmniPrior SOTA
ChronusAV (Explicit Grounding)mIoU0.710.53
ChronusAV (Implicit Cross‑Modal)Acc@10.840.61
TVQA (Video QA)Accuracy0.780.75
AVSD (Audio‑Visual Dialog)BLEU‑40.320.28
  • 30 %+ 상대적 향상은 타임스탬프 토크나이제이션 + RL이 시간 정합을 크게 개선한다는 것을 보여줍니다.
  • 거의 감소 없음(오히려 약간 상승)으로 비관련 비디오‑언어 작업에서도 일반 이해 능력이 유지됨을 확인했습니다.
  • Ablation 연구에서는 RL 단계를 제거하면 성능이 약 12 % 감소하고, 오디오 임베딩을 제외하면 암시적 정합 정확도가 약 18 % 떨어지는 것으로 나타났습니다.

Practical Implications

  • 향상된 비디오 어시스턴트: 영화, 스포츠 재생, 감시 영상 등에 대해 언제 무언가가 일어났는지를 높은 신뢰도로 검색·답변할 수 있습니다.
  • 멀티모달 콘텐츠 인덱싱: 검색 엔진이 정확한 시간 태그로 비디오‑오디오 아카이브를 색인화해 “주인공이 비밀을 처음 언급하는 장면을 보여줘”와 같은 쿼리를 수동 라벨링 없이 처리할 수 있습니다.
  • 실시간 모니터링: 안전‑중요 분야(예: 자율주행, 산업 현장)에서 모델이 센서 오디오(경보)와 시각 신호를 정렬해 적시에 경보를 트리거할 수 있습니다.
  • 창작 도구: 영상 편집자는 대사와 화면 행동을 자동으로 동기화한 타임라인을 생성해 자막이나 더빙 파이프라인을 가속화할 수 있습니다.

ChronusOmni는 기존 비전·오디오 인코더 위에 구축되므로, 현재 파이프라인에 통합하려면 멀티모달 인코더를 교체하고 타임스탬프 토큰 레이어를 추가하면 됩니다—대규모 아키텍처 개편이 필요하지 않습니다.

Limitations & Future Work

  • 고정된 시간 granularity: 현재 슬라이스 크기가 균일하기 때문에 매우 빠른 이벤트(예: 급속 컷)를 놓칠 수 있습니다. 적응형 슬라이싱이 정밀도를 높일 수 있습니다.
  • 데이터셋 편향: ChronusAV는 다양하지만 여전히 스크립트된 미디어(영화, TV)에 치우쳐 있습니다. 실제 현장 영상(예: 대시캠, 라이브 스트림)은 다른 오디오‑시각 시간 패턴을 보일 수 있습니다.
  • RL 확장성: 강화학습은 계산 비용을 증가시키고 대형 모델에서는 불안정해질 수 있습니다. 보다 효율적인 미세 조정 방법(예: LoRA‑style 어댑터) 탐색이 필요합니다.

저자들은 타임스탬프 토큰 개념을 텍스트 스트림, 센서 데이터 등 다른 모달리티에도 확장하고, 밀집 라벨에 대한 의존도를 낮추기 위해 자기지도(time‑self‑supervised) 사전 학습을 연구할 것을 제안합니다.

Authors

  • Yijing Chen
  • Yihan Wu
  • Kaisi Guan
  • Yuchen Ren
  • Yuyue Wang
  • Ruihua Song
  • Liyun Ru

Paper Information

  • arXiv ID: 2512.09841v1
  • Categories: cs.CL, cs.CV, cs.MM
  • Published: December 10, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »