[Paper] ChronosOmni: Omni 대형 언어 모델의 시간 인식 개선
Source: arXiv - 2512.09841v1
Overview
ChronusOmni는 비디오와 오디오 스트림 모두에서 언제 사건이 발생하는지를 추론할 수 있는 새로운 “omni” 대형 언어 모델입니다. 타임스탬프를 멀티모달 표현에 긴밀히 통합함으로써, 모델은 명시적인 타이밍이 필요한 질문(예: “00:45에 무슨 일이 일어나나요?”)은 물론, 암시적인 교차‑모달 타이밍 질문(예: “내레이터가 ‘폭풍이 다가오고 있다’고 말할 때 화면에 무엇이 보이나요?”)에도 답할 수 있습니다. 저자들은 또한 시청각 시간 정합 연구를 촉진하기 위해 새로운 벤치마크 ChronusAV를 공개했습니다.
Key Contributions
- Unified timestamp tokenization: 시각 및 오디오 임베딩과 매 시간 단계마다 교차하는 특수 토큰을 도입하여, 단일 트랜스포머가 모달리티 간의 시간 관계를 모델링할 수 있게 합니다.
- Reinforcement‑learning fine‑tuning: 순서가 뒤섞인 예측을 명시적으로 벌점하고, 세밀한 시간 정렬을 보상하는 보상 함수를 설계하여 모델의 연대감 인식을 강화합니다.
- ChronusAV dataset: 명시적·암시적 정합 작업을 위한 촘촘한 타임스탬프가 부착된 대규모 모달리티‑완전 비디오‑오디오 클립 컬렉션.
- State‑of‑the‑art performance: ChronusAV에서 기존 방법 대비 30 % 이상의 상대적 향상을 달성했으며, 여러 기존 시간 정합 벤치마크에서도 새로운 최고 점수를 기록했습니다.
- Preserved general video/audio understanding: 추가된 시간 메커니즘이 표준 비디오‑질문응답이나 오디오 분류 작업의 성능을 저하시키지 않음을 입증했습니다.
Methodology
-
Temporal Token Insertion – 고정된 시간 슬라이스(예: 0.5 s)마다 timestamp token을 입력 시퀀스에 삽입합니다. 이 토큰은 시각 프레임 임베딩 및 해당 오디오 스펙트로그램 임베딩과 함께
[timestamp, visual, audio]삼중항을 형성합니다. 이렇게 하면 트랜스포머가 시간 자체를 또 다른 토큰 유형으로 취급해 순차적인 단일 시퀀스를 주의(attention)할 수 있습니다. -
Multimodal Encoder – 사전 학습된 비전 인코더(예: CLIP ViT)와 오디오 인코더(예: wav2vec 2.0)가 각각 모달리티‑전용 벡터를 생성합니다. 이 벡터들을 공통 차원으로 투영하고 timestamp token과 결합한 뒤, 언어 모델 백본(예: LLaMA)에 입력합니다.
-
Reinforcement Learning (RL) Stage – ChronusAV에 대한 지도 학습 사전 훈련 후, Proximal Policy Optimization을 이용해 RL로 미세 조정합니다. 두 가지 맞춤 보상이 사용됩니다:
- Temporal Order Reward – 예측된 타임스탬프가 실제 연대 순서를 따를 때 높은 점수를 부여합니다.
- Cross‑Modal Alignment Reward – 시각 이벤트와 해당 오디오 단서(또는 그 반대)를 올바르게 짝짓도록 모델을 장려합니다.
-
Training Pipeline – 저자들은 먼저 일반 비디오‑언어 코퍼스(일반 능력 유지)와 ChronusAV(시간 지식 주입)를 혼합해 학습합니다. 이후 RL 단계에서 시간 정확성을 미세 조정하면서 파국적 망각(catastrophic forgetting)을 방지합니다.
Results & Findings
| Benchmark | Metric (↑ better) | ChronusOmni | Prior SOTA |
|---|---|---|---|
| ChronusAV (Explicit Grounding) | mIoU | 0.71 | 0.53 |
| ChronusAV (Implicit Cross‑Modal) | Acc@1 | 0.84 | 0.61 |
| TVQA (Video QA) | Accuracy | 0.78 | 0.75 |
| AVSD (Audio‑Visual Dialog) | BLEU‑4 | 0.32 | 0.28 |
- 30 %+ 상대적 향상은 타임스탬프 토크나이제이션 + RL이 시간 정합을 크게 개선한다는 것을 보여줍니다.
- 거의 감소 없음(오히려 약간 상승)으로 비관련 비디오‑언어 작업에서도 일반 이해 능력이 유지됨을 확인했습니다.
- Ablation 연구에서는 RL 단계를 제거하면 성능이 약 12 % 감소하고, 오디오 임베딩을 제외하면 암시적 정합 정확도가 약 18 % 떨어지는 것으로 나타났습니다.
Practical Implications
- 향상된 비디오 어시스턴트: 영화, 스포츠 재생, 감시 영상 등에 대해 언제 무언가가 일어났는지를 높은 신뢰도로 검색·답변할 수 있습니다.
- 멀티모달 콘텐츠 인덱싱: 검색 엔진이 정확한 시간 태그로 비디오‑오디오 아카이브를 색인화해 “주인공이 비밀을 처음 언급하는 장면을 보여줘”와 같은 쿼리를 수동 라벨링 없이 처리할 수 있습니다.
- 실시간 모니터링: 안전‑중요 분야(예: 자율주행, 산업 현장)에서 모델이 센서 오디오(경보)와 시각 신호를 정렬해 적시에 경보를 트리거할 수 있습니다.
- 창작 도구: 영상 편집자는 대사와 화면 행동을 자동으로 동기화한 타임라인을 생성해 자막이나 더빙 파이프라인을 가속화할 수 있습니다.
ChronusOmni는 기존 비전·오디오 인코더 위에 구축되므로, 현재 파이프라인에 통합하려면 멀티모달 인코더를 교체하고 타임스탬프 토큰 레이어를 추가하면 됩니다—대규모 아키텍처 개편이 필요하지 않습니다.
Limitations & Future Work
- 고정된 시간 granularity: 현재 슬라이스 크기가 균일하기 때문에 매우 빠른 이벤트(예: 급속 컷)를 놓칠 수 있습니다. 적응형 슬라이싱이 정밀도를 높일 수 있습니다.
- 데이터셋 편향: ChronusAV는 다양하지만 여전히 스크립트된 미디어(영화, TV)에 치우쳐 있습니다. 실제 현장 영상(예: 대시캠, 라이브 스트림)은 다른 오디오‑시각 시간 패턴을 보일 수 있습니다.
- RL 확장성: 강화학습은 계산 비용을 증가시키고 대형 모델에서는 불안정해질 수 있습니다. 보다 효율적인 미세 조정 방법(예: LoRA‑style 어댑터) 탐색이 필요합니다.
저자들은 타임스탬프 토큰 개념을 텍스트 스트림, 센서 데이터 등 다른 모달리티에도 확장하고, 밀집 라벨에 대한 의존도를 낮추기 위해 자기지도(time‑self‑supervised) 사전 학습을 연구할 것을 제안합니다.
Authors
- Yijing Chen
- Yihan Wu
- Kaisi Guan
- Yuchen Ren
- Yuyue Wang
- Ruihua Song
- Liyun Ru
Paper Information
- arXiv ID: 2512.09841v1
- Categories: cs.CL, cs.CV, cs.MM
- Published: December 10, 2025
- PDF: Download PDF