[Paper] OmniSIFT: 효율적인 옴니모달 대형 언어 모델을 위한 모달리티 비대칭 토큰 압축

발행: (2026년 2월 5일 오전 02:51 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2602.04804v1

번역을 진행하려면 번역하고자 하는 본문 텍스트를 제공해 주시겠어요?
코드 블록, URL, 그리고 마크다운 형식은 그대로 유지하면서 내용만 한국어로 번역해 드리겠습니다.

개요

OmniSIFT는 옴니모달 대형 언어 모델(LLM)에서 가장 큰 병목 현상 중 하나인, 비디오와 오디오 토큰의 긴 시퀀스로 인한 막대한 계산 비용을 해결합니다. 중복된 시각 프레임을 지능적으로 제거하고 관련 없는 오디오 조각을 필터링함으로써, 이 방법은 토큰 길이를 원래의 약 1/4 수준으로 크게 줄이면서 실제로 여러 벤치마크에서 하위 작업 성능을 향상시킵니다.

핵심 기여

  • Modality‑asymmetric compression: 비디오(시공간 프루닝)와 오디오(시각‑가이드 선택)를 위한 별도, 특화된 파이프라인.
  • Two‑stage, end‑to‑end trainable framework: 차분 가능한 straight‑through estimator를 사용해 압축 모듈을 Omni‑LLM과 공동 학습 가능하게 함.
  • Tiny overhead: 약 ~4.85 M 추가 파라미터(≈0.07 % of a 7 B model)만 필요하며 OmniZip과 같은 기존 training‑free 베이스라인보다 지연 시간이 짧음.
  • Strong empirical gains: 원본 토큰 수의 25 %만 사용해도 OmniSIFT는 모든 기존 압축 방법을 능가하고 여러 audio‑video 이해 작업에서 full‑token 베이스라인조차 능가함.
  • Broad evaluation: video QA, audio‑visual reasoning, multimodal captioning을 포함한 다섯 개의 다양한 벤치마크에서 검증됨.

방법론

  1. Spatio‑Temporal Video Pruning

    • Intra‑frame: 가벼운 CNN이 프레임 내에서 유용한 정보를 담고 있는 패치(예: 움직이는 객체, 눈에 띄는 영역)를 예측합니다.
    • Inter‑frame: 시간적 유사도 스코어러가 거의 동일한 프레임(예: 정적인 배경)을 식별하고 이를 삭제합니다.
    • 두 신호를 결합하여 이진 마스크를 생성하고, LLM에 도달하기 전에 중복된 시각 토큰을 제거합니다.
  2. Vision‑Guided Audio Selection

    • 정제된 비디오 표현을 “가이드”로 사용하여 원시 오디오 토큰 스트림에 주의를 기울입니다.
    • 시각적 단서와 잘 맞지 않는 오디오 구간(예: 배경 소음, 무음 구간)은 낮은 점수를 받아 제거됩니다.
  3. Differentiable Compression

    • 두 가지 프루닝 모듈 모두 하드 이진 결정을 출력하지만, 스트레이트‑스루 추정기를 사용해 역전파 시 연속적인 값으로 처리하여 그래디언트가 하위 LLM 손실로부터 흐를 수 있게 합니다.
    • 전체 파이프라인(프루닝 + LLM)을 공동으로 학습함으로써 압축기는 각 작업에 대해 언어 모델이 정확히 필요로 하는 정보를 학습합니다.

결과 및 발견

모델 (토큰)지연 ↓평균 점수 ↑주목할 만한 향상
Qwen2.5‑Omni‑7B (full)기준73.2
OmniZip (training‑free)+12 %71.8
OmniSIFT (25 % tokens)‑8 %74.5VideoQA‑X 및 AVE‑Bench에서 전체 토큰 모델을 능가
  • 파라미터 효율성: 추가 파라미터는 4.85 M에 불과하며, 메모리 영향은 무시할 수 수준입니다.
  • 견고성: 다양한 모달리티 비율을 가진 작업(예: 오디오 중심 vs. 비디오 중심)에서도 성능이 유지됩니다.
  • 소거 실험: intra‑frame 또는 inter‑frame 구성 요소 중 하나를 제거하면 정확도가 약 1.3 % 감소하고, vision‑guided audio selection을 비활성화하면 오디오 중심 점수가 약 2 % 감소합니다.

실용적 함의

  • 실시간 앱을 위한 빠른 추론: 스트리밍 비디오 어시스턴트, 실시간 자막, AR/VR 경험을 이제 품질 저하 없이 엣지 GPU 또는 고성능 모바일에서 Omni‑LLM을 실행할 수 있습니다.
  • 비용 효율적인 확장: 토큰 길이가 크게 줄어들어 연산량이 감소하므로 클라우드 제공업체가 GPU당 더 많은 동시 사용자를 지원할 수 있습니다.
  • 단순화된 데이터 파이프라인: 개발자는 원시 비디오/오디오 스트림을 직접 입력할 수 있으며, OmniSIFT가 중복 제거를 자동으로 처리해 수작업 전처리 필요성을 줄입니다.
  • 에너지 절감: 토큰 수가 감소하면 FLOP가 낮아져 대규모 AI 배포의 지속 가능성 목표와 부합합니다.

제한 사항 및 향후 작업

  • 도메인 민감도: 프루닝 휴리스틱은 학습 데이터에서 학습됩니다; 의료 영상과 같이 고도로 특화된 도메인에서는 파인‑튜닝이나 맞춤형 마스크가 필요할 수 있습니다.
  • 오디오 전용 시나리오: 시각적 단서가 없거나 최소일 때, 비전‑가이드 오디오 선택자는 제한된 이점을 제공하므로 보완적인 오디오‑중심 압축기가 필요함을 시사합니다.
  • 대형 LLM에 대한 확장성: 실험은 7 B 모델에 초점을 맞추었으며, 이 접근 방식을 70 B 규모의 Omni‑LLM으로 확장하면 마스크 생성 지연 시간에서 새로운 병목 현상이 드러날 수 있습니다.
  • 향후 방향: 모달리티별 적응형 토큰 예산을 탐색하고, 다운스트림 작업 신호에서 학습된 다중모달 토큰 중요성을 통합하며, 장시간 콘텐츠(예: 장편 영화)에서 테스트합니다.

저자

  • Yue Ding
  • Yiyan Ji
  • Jungang Li
  • Xuyang Liu
  • Xinlong Chen
  • Junfei Wu
  • Bozhou Li
  • Bohan Zeng
  • Yang Shi
  • Yushuo Guan
  • Yuanxing Zhang
  • Jiaheng Liu
  • Qiang Liu
  • Pengfei Wan
  • Liang Wang

논문 정보

  • arXiv ID: 2602.04804v1
  • 카테고리: cs.CL
  • 출판일: 2026년 2월 4일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »