[Paper] FlashVLM: 텍스트 가이드 시각 토큰 선택 for 대규모 멀티모달 모델

발행: (2025년 12월 24일 오전 03:05 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.20561v1

Overview

FlashVLM은 대형 비전‑언어 모델(VLM)에서 핵심 병목 현상인 매 이미지·비디오 프레임마다 처리해야 하는 방대한 시각 토큰 수를 해결합니다. 텍스트 질의와 실제로 관련된 토큰만 선택함으로써, FlashVLM은 2차원(attention) 연산 비용을 크게 줄이는 동시에 많은 벤치마크에서 성능을 향상시킵니다. 논문에서는 정확도를 희생하지 않고 시각 토큰을 ≈ 78 %까지 가지치기할 수 있으며, 경우에 따라 가지치기 전 베이스라인을 능가할 수 있음을 보여줍니다.

주요 기여

  • 텍스트‑가이드 토큰 선택: 이미지 패치와 질의 임베딩 간의 명시적인 교차‑모달 유사도 점수를 도입하여, 잡음이 섞인 자체‑어텐션 맵에 의존하지 않음.
  • 하이브리드 관련성 가중치: 로그‑도메인 가중치와 온도‑제어 샤프닝을 사용해 외재적(텍스트‑질의 관련성) 및 내재적(시각적 현저도) 단서를 결합, 강인한 순위 매김을 구현.
  • 다양성‑보존 파티션: 전역 장면 컨텍스트를 유지하기 위해 최소한의 배경 토큰 집합을 보장, “지루한” 영역의 과도한 프루닝을 방지.
  • 무손실‑또는‑향상 압축: 동일한 토큰 예산에서 FlashVLM이 원본 모델의 정확도와 동등하거나 이를 초과함을 입증 (예: 94.4 % 압축 시 원본 성능의 92.8 % 달성).
  • 광범위한 평가: 14개의 이미지 및 비디오 데이터셋과 여러 VLM 백본(예: LLaVA‑1.5)을 대상으로 검증하여 일관된 효율‑정확도 트레이드‑오프와 강력한 견고성을 보여줌.

방법론

  1. 시각 토큰 투사: 각 이미지 패치(또는 비디오 프레임 토큰)는 언어 모델이 사용하는 동일한 임베딩 공간으로 선형 투사됩니다.
  2. 교차 모달 유사도 계산: 투사된 토큰을 정규화된 텍스트‑쿼리 임베딩과 내적하여, 해당 프롬프트에 대해 패치가 얼마나 “언급될 수 있는지”를 직접 측정하는 관련 점수를 산출합니다.
  3. 시각적 살리언시와 결합: 경량 CNN 또는 VLM의 초기 레이어에서 얻은 내재적 살리언시 맵을 관련 점수와 결합합니다. 결합은 로그 도메인에서 이루어지며 온도 파라미터에 의해 강화되어, 높은 관련성을 가진 토큰은 강조하고 노이즈는 억제합니다.
  4. 정렬 및 정제: 토큰을 결합된 점수 기준으로 정렬합니다. 사용자 정의 예산(예: 토큰의 20 % 유지)으로 컷오프를 결정합니다.
  5. 다양성 파티션: 모든 배경 정보를 버리는 것을 방지하기 위해 FlashVLM은 공간적으로 다양하고 점수가 낮은 토큰의 작은 할당량을 보존하여 대략적인 전역 컨텍스트를 유지합니다.
  6. 정제된 세트를 VLM에 입력: 축소된 토큰 세트를 표준 트랜스포머 레이어에 전달하여, 훨씬 적은 2차 주의 비용을 발생시킵니다.

전체 파이프라인은 가볍고(추가 깊은 어텐션 패스 없음) 토큰 임베딩을 이미 제공하는 기존 VLM에 쉽게 연결할 수 있습니다.

결과 및 발견

지표가지치기되지 않은 베이스라인FlashVLM (77.8 % 가지치기)FlashVLM (94.4 % 가지치기)
정확도 (14개 벤치마크 평균)100 % (reference)100.3 % (소폭 상승)92.8 %
FLOPs 감소≈ 4×≈ 15×
이미지당 토큰 수~1024~224~60
  • 최첨단 효율성: 테스트된 모든 VLM(LLaVA‑1.5, MiniGPT‑4 등)에서 FlashVLM은 기존 토큰 감소 방법(예: 어텐션 기반 가지치기, 균일 다운샘플링)보다 일관되게 우수한 성능을 보였습니다.
  • 견고성: 극단적인 압축(≥ 94 % 토큰 제거) 상황에서도 성능 저하가 완만했으며, 모델은 분포 외 프롬프트에 대한 강력한 제로샷 능력을 유지했습니다.
  • 일반화: 동일한 relevance‑fusion 하이퍼파라미터가 이미지와 비디오 작업 모두에 그대로 적용되어, 접근 방식이 특정 데이터셋에 강하게 결합되지 않음을 보여줍니다.

Practical Implications

  • Cost‑effective inference: 비용 효율적인 추론: VLM을 엣지 디바이스, 모바일 GPU, 혹은 서버리스 환경에 배포하는 것이 가능해집니다. 이는 이차적인 어텐션 비용이 크게 감소했기 때문입니다.
  • Faster interactive AI assistants: 더 빠른 인터랙티브 AI 어시스턴트: 실시간 멀티모달 챗봇(예: LLaVA 기반 에이전트)이 더 빠르게 응답할 수 있어 AR/VR 혹은 웹 기반 애플리케이션에서 부드러운 사용자 경험을 제공합니다.
  • Scalable video analytics: 확장 가능한 비디오 분석: 비디오의 모든 프레임을 처리하는 것은 전통적으로 비용이 많이 들지만, FlashVLM의 토큰 선택을 프레임별로 적용하면 연산량을 한 차수 정도 줄이면서도 프레임별 질문에 답할 수 있는 능력을 유지합니다.
  • Energy savings: 에너지 절감: FLOPs가 감소하면 전력 소비도 직접적으로 감소합니다. 이는 대규모 추론 팜이나 지속 가능성을 중시하는 배포 환경에 매력적인 제안이 됩니다.
  • Plug‑and‑play: 플러그 앤 플레이: 이 방법이 기존 토큰 임베딩 위에서 동작하기 때문에, 개발자는 트랜스포머 인코더 전에 전처리 훅을 추가하는 정도의 최소한의 코드 변경만으로 FlashVLM을 파이프라인에 통합할 수 있습니다.

제한 사항 및 향후 작업

  • 좋은 텍스트 임베딩에 대한 의존성: 언어 모델의 질의 표현이 약할 경우(예: 모호한 프롬프트), 관련성 점수가 가지치기 결정에 오해를 일으킬 수 있습니다.
  • 정적인 예산 선택: 현재 구현은 이미지당 고정 토큰 예산을 사용합니다; 장면 복잡도에 기반한 적응형 예산은 더 나은 트레이드오프를 제공할 수 있습니다.
  • Transformer‑스타일 VLM에 한정: 토큰 수준 임베딩을 제공하지 않는 모델(예: 일부 확산 기반 멀티모달 시스템)은 추가 엔지니어링이 필요합니다.
  • 향후 방향: 저자들은 학습된 온도 스케줄 탐색, 멀티모달 피드백 루프 통합(예: 첫 번째 통과 후 재정렬) 및 프레임워크를 3‑D 포인트 클라우드 또는 라이다 데이터에 확장하여 자율 주행 시나리오에 적용하는 것을 제안합니다.

저자

  • Kaitong Cai
  • Jusheng Zhang
  • Jing Yang
  • Yijia Fan
  • Pengtao Xie
  • Jian Wang
  • Keze Wang

논문 정보

  • arXiv ID: 2512.20561v1
  • 분류: cs.CV
  • 출판일: 2025년 12월 23일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »