[Paper] OmniSIFT: 효율적인 옴니모달 대형 언어 모델을 위한 모달리티 비대칭 토큰 압축

발행: 4일 전 (2026년 2월 5일 오전 02:51 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2602.04804v1

번역을 진행하려면 번역하고자 하는 본문 텍스트를 제공해 주시겠어요?
코드 블록, URL, 그리고 마크다운 형식은 그대로 유지하면서 내용만 한국어로 번역해 드리겠습니다.

개요

OmniSIFT는 옴니모달 대형 언어 모델(LLM)에서 가장 큰 병목 현상 중 하나인, 비디오와 오디오 토큰의 긴 시퀀스로 인한 막대한 계산 비용을 해결합니다. 중복된 시각 프레임을 지능적으로 제거하고 관련 없는 오디오 조각을 필터링함으로써, 이 방법은 토큰 길이를 원래의 약 1/4 수준으로 크게 줄이면서 실제로 여러 벤치마크에서 하위 작업 성능을 향상시킵니다.

핵심 기여

Modality‑asymmetric compression: 비디오(시공간 프루닝)와 오디오(시각‑가이드 선택)를 위한 별도, 특화된 파이프라인.
Two‑stage, end‑to‑end trainable framework: 차분 가능한 straight‑through estimator를 사용해 압축 모듈을 Omni‑LLM과 공동 학습 가능하게 함.
Tiny overhead: 약 ~4.85 M 추가 파라미터(≈0.07 % of a 7 B model)만 필요하며 OmniZip과 같은 기존 training‑free 베이스라인보다 지연 시간이 짧음.
Strong empirical gains: 원본 토큰 수의 25 %만 사용해도 OmniSIFT는 모든 기존 압축 방법을 능가하고 여러 audio‑video 이해 작업에서 full‑token 베이스라인조차 능가함.
Broad evaluation: video QA, audio‑visual reasoning, multimodal captioning을 포함한 다섯 개의 다양한 벤치마크에서 검증됨.

방법론

Spatio‑Temporal Video Pruning
- Intra‑frame: 가벼운 CNN이 프레임 내에서 유용한 정보를 담고 있는 패치(예: 움직이는 객체, 눈에 띄는 영역)를 예측합니다.
- Inter‑frame: 시간적 유사도 스코어러가 거의 동일한 프레임(예: 정적인 배경)을 식별하고 이를 삭제합니다.
- 두 신호를 결합하여 이진 마스크를 생성하고, LLM에 도달하기 전에 중복된 시각 토큰을 제거합니다.
Vision‑Guided Audio Selection
- 정제된 비디오 표현을 “가이드”로 사용하여 원시 오디오 토큰 스트림에 주의를 기울입니다.
- 시각적 단서와 잘 맞지 않는 오디오 구간(예: 배경 소음, 무음 구간)은 낮은 점수를 받아 제거됩니다.
Differentiable Compression
- 두 가지 프루닝 모듈 모두 하드 이진 결정을 출력하지만, 스트레이트‑스루 추정기를 사용해 역전파 시 연속적인 값으로 처리하여 그래디언트가 하위 LLM 손실로부터 흐를 수 있게 합니다.
- 전체 파이프라인(프루닝 + LLM)을 공동으로 학습함으로써 압축기는 각 작업에 대해 언어 모델이 정확히 필요로 하는 정보를 학습합니다.

결과 및 발견

모델 (토큰)	지연 ↓	평균 점수 ↑	주목할 만한 향상
Qwen2.5‑Omni‑7B (full)	기준	73.2	–
OmniZip (training‑free)	+12 %	71.8	–
OmniSIFT (25 % tokens)	‑8 %	74.5	VideoQA‑X 및 AVE‑Bench에서 전체 토큰 모델을 능가

파라미터 효율성: 추가 파라미터는 4.85 M에 불과하며, 메모리 영향은 무시할 수 수준입니다.
견고성: 다양한 모달리티 비율을 가진 작업(예: 오디오 중심 vs. 비디오 중심)에서도 성능이 유지됩니다.
소거 실험: intra‑frame 또는 inter‑frame 구성 요소 중 하나를 제거하면 정확도가 약 1.3 % 감소하고, vision‑guided audio selection을 비활성화하면 오디오 중심 점수가 약 2 % 감소합니다.

실용적 함의

실시간 앱을 위한 빠른 추론: 스트리밍 비디오 어시스턴트, 실시간 자막, AR/VR 경험을 이제 품질 저하 없이 엣지 GPU 또는 고성능 모바일에서 Omni‑LLM을 실행할 수 있습니다.
비용 효율적인 확장: 토큰 길이가 크게 줄어들어 연산량이 감소하므로 클라우드 제공업체가 GPU당 더 많은 동시 사용자를 지원할 수 있습니다.
단순화된 데이터 파이프라인: 개발자는 원시 비디오/오디오 스트림을 직접 입력할 수 있으며, OmniSIFT가 중복 제거를 자동으로 처리해 수작업 전처리 필요성을 줄입니다.
에너지 절감: 토큰 수가 감소하면 FLOP가 낮아져 대규모 AI 배포의 지속 가능성 목표와 부합합니다.

제한 사항 및 향후 작업

도메인 민감도: 프루닝 휴리스틱은 학습 데이터에서 학습됩니다; 의료 영상과 같이 고도로 특화된 도메인에서는 파인‑튜닝이나 맞춤형 마스크가 필요할 수 있습니다.
오디오 전용 시나리오: 시각적 단서가 없거나 최소일 때, 비전‑가이드 오디오 선택자는 제한된 이점을 제공하므로 보완적인 오디오‑중심 압축기가 필요함을 시사합니다.
대형 LLM에 대한 확장성: 실험은 7 B 모델에 초점을 맞추었으며, 이 접근 방식을 70 B 규모의 Omni‑LLM으로 확장하면 마스크 생성 지연 시간에서 새로운 병목 현상이 드러날 수 있습니다.
향후 방향: 모달리티별 적응형 토큰 예산을 탐색하고, 다운스트림 작업 신호에서 학습된 다중모달 토큰 중요성을 통합하며, 장시간 콘텐츠(예: 장편 영화)에서 테스트합니다.

저자

Yue Ding
Yiyan Ji
Jungang Li
Xuyang Liu
Xinlong Chen
Junfei Wu
Bozhou Li
Bohan Zeng
Yang Shi
Yushuo Guan
Yuanxing Zhang
Jiaheng Liu
Qiang Liu
Pengfei Wan
Liang Wang

논문 정보

arXiv ID: 2602.04804v1
카테고리: cs.CL
출판일: 2026년 2월 4일
PDF: PDF 다운로드

[Paper] OmniSIFT: 효율적인 옴니모달 대형 언어 모델을 위한 모달리티 비대칭 토큰 압축

개요

핵심 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] DFlash: 블록 디퓨전 for Flash Speculative Decoding

[Paper] 쿼리 인식 예산-계층 라우팅 학습 for Runtime Agent Memory

[Paper] Self-Distillation을 통한 멀티 토큰 예측

[Paper] Large Language Models를 이용한 PTSD 심각도 추정에 대한 체계적 평가: Contextual Knowledge와 Modeling Strategies의 역할