[Paper] OmniSIFT: 효율적인 옴니모달 대형 언어 모델을 위한 모달리티 비대칭 토큰 압축
Source: arXiv - 2602.04804v1
번역을 진행하려면 번역하고자 하는 본문 텍스트를 제공해 주시겠어요?
코드 블록, URL, 그리고 마크다운 형식은 그대로 유지하면서 내용만 한국어로 번역해 드리겠습니다.
개요
OmniSIFT는 옴니모달 대형 언어 모델(LLM)에서 가장 큰 병목 현상 중 하나인, 비디오와 오디오 토큰의 긴 시퀀스로 인한 막대한 계산 비용을 해결합니다. 중복된 시각 프레임을 지능적으로 제거하고 관련 없는 오디오 조각을 필터링함으로써, 이 방법은 토큰 길이를 원래의 약 1/4 수준으로 크게 줄이면서 실제로 여러 벤치마크에서 하위 작업 성능을 향상시킵니다.
핵심 기여
- Modality‑asymmetric compression: 비디오(시공간 프루닝)와 오디오(시각‑가이드 선택)를 위한 별도, 특화된 파이프라인.
- Two‑stage, end‑to‑end trainable framework: 차분 가능한 straight‑through estimator를 사용해 압축 모듈을 Omni‑LLM과 공동 학습 가능하게 함.
- Tiny overhead: 약 ~4.85 M 추가 파라미터(≈0.07 % of a 7 B model)만 필요하며 OmniZip과 같은 기존 training‑free 베이스라인보다 지연 시간이 짧음.
- Strong empirical gains: 원본 토큰 수의 25 %만 사용해도 OmniSIFT는 모든 기존 압축 방법을 능가하고 여러 audio‑video 이해 작업에서 full‑token 베이스라인조차 능가함.
- Broad evaluation: video QA, audio‑visual reasoning, multimodal captioning을 포함한 다섯 개의 다양한 벤치마크에서 검증됨.
방법론
-
Spatio‑Temporal Video Pruning
- Intra‑frame: 가벼운 CNN이 프레임 내에서 유용한 정보를 담고 있는 패치(예: 움직이는 객체, 눈에 띄는 영역)를 예측합니다.
- Inter‑frame: 시간적 유사도 스코어러가 거의 동일한 프레임(예: 정적인 배경)을 식별하고 이를 삭제합니다.
- 두 신호를 결합하여 이진 마스크를 생성하고, LLM에 도달하기 전에 중복된 시각 토큰을 제거합니다.
-
Vision‑Guided Audio Selection
- 정제된 비디오 표현을 “가이드”로 사용하여 원시 오디오 토큰 스트림에 주의를 기울입니다.
- 시각적 단서와 잘 맞지 않는 오디오 구간(예: 배경 소음, 무음 구간)은 낮은 점수를 받아 제거됩니다.
-
Differentiable Compression
- 두 가지 프루닝 모듈 모두 하드 이진 결정을 출력하지만, 스트레이트‑스루 추정기를 사용해 역전파 시 연속적인 값으로 처리하여 그래디언트가 하위 LLM 손실로부터 흐를 수 있게 합니다.
- 전체 파이프라인(프루닝 + LLM)을 공동으로 학습함으로써 압축기는 각 작업에 대해 언어 모델이 정확히 필요로 하는 정보를 학습합니다.
결과 및 발견
| 모델 (토큰) | 지연 ↓ | 평균 점수 ↑ | 주목할 만한 향상 |
|---|---|---|---|
| Qwen2.5‑Omni‑7B (full) | 기준 | 73.2 | – |
| OmniZip (training‑free) | +12 % | 71.8 | – |
| OmniSIFT (25 % tokens) | ‑8 % | 74.5 | VideoQA‑X 및 AVE‑Bench에서 전체 토큰 모델을 능가 |
- 파라미터 효율성: 추가 파라미터는 4.85 M에 불과하며, 메모리 영향은 무시할 수 수준입니다.
- 견고성: 다양한 모달리티 비율을 가진 작업(예: 오디오 중심 vs. 비디오 중심)에서도 성능이 유지됩니다.
- 소거 실험: intra‑frame 또는 inter‑frame 구성 요소 중 하나를 제거하면 정확도가 약 1.3 % 감소하고, vision‑guided audio selection을 비활성화하면 오디오 중심 점수가 약 2 % 감소합니다.
실용적 함의
- 실시간 앱을 위한 빠른 추론: 스트리밍 비디오 어시스턴트, 실시간 자막, AR/VR 경험을 이제 품질 저하 없이 엣지 GPU 또는 고성능 모바일에서 Omni‑LLM을 실행할 수 있습니다.
- 비용 효율적인 확장: 토큰 길이가 크게 줄어들어 연산량이 감소하므로 클라우드 제공업체가 GPU당 더 많은 동시 사용자를 지원할 수 있습니다.
- 단순화된 데이터 파이프라인: 개발자는 원시 비디오/오디오 스트림을 직접 입력할 수 있으며, OmniSIFT가 중복 제거를 자동으로 처리해 수작업 전처리 필요성을 줄입니다.
- 에너지 절감: 토큰 수가 감소하면 FLOP가 낮아져 대규모 AI 배포의 지속 가능성 목표와 부합합니다.
제한 사항 및 향후 작업
- 도메인 민감도: 프루닝 휴리스틱은 학습 데이터에서 학습됩니다; 의료 영상과 같이 고도로 특화된 도메인에서는 파인‑튜닝이나 맞춤형 마스크가 필요할 수 있습니다.
- 오디오 전용 시나리오: 시각적 단서가 없거나 최소일 때, 비전‑가이드 오디오 선택자는 제한된 이점을 제공하므로 보완적인 오디오‑중심 압축기가 필요함을 시사합니다.
- 대형 LLM에 대한 확장성: 실험은 7 B 모델에 초점을 맞추었으며, 이 접근 방식을 70 B 규모의 Omni‑LLM으로 확장하면 마스크 생성 지연 시간에서 새로운 병목 현상이 드러날 수 있습니다.
- 향후 방향: 모달리티별 적응형 토큰 예산을 탐색하고, 다운스트림 작업 신호에서 학습된 다중모달 토큰 중요성을 통합하며, 장시간 콘텐츠(예: 장편 영화)에서 테스트합니다.
저자
- Yue Ding
- Yiyan Ji
- Jungang Li
- Xuyang Liu
- Xinlong Chen
- Junfei Wu
- Bozhou Li
- Bohan Zeng
- Yang Shi
- Yushuo Guan
- Yuanxing Zhang
- Jiaheng Liu
- Qiang Liu
- Pengfei Wan
- Liang Wang
논문 정보
- arXiv ID: 2602.04804v1
- 카테고리: cs.CL
- 출판일: 2026년 2월 4일
- PDF: PDF 다운로드