[Paper] LLaVA가 객체를 만날 때: 비전-언어 모델을 위한 토큰 구성
Source: arXiv - 2602.04864v1
개요
논문 “When LLaVA Meets Objects: Token Composition for Vision‑Language Models” 은 현대 자동회귀 비전‑언어 모델(VLM)에서 핵심 병목 현상인 수천 개의 시각 토큰을 이미지 인코딩에 사용해야 하는 문제를 다룹니다. 이는 추론을 느리고 비용이 많이 들게 합니다. 저자들은 Mask‑LLaVA 라는 토큰 효율적인 프레임워크를 제안합니다. 이 프레임워크는 객체‑레벨 마스크, 전역 장면 토큰, 그리고 세밀한 패치 토큰을 혼합하여, 테스트 시 많은 토큰을 제거하더라도 정확도 손실이 거의 없도록 합니다.
주요 기여
- Multi‑level token composition: 마스크 기반 객체 토큰, 전역 이미지 토큰, 로컬 패치 토큰을 하나의 시각 표현으로 결합합니다.
- Dynamic token pruning at inference: 추론 시 객체 토큰 수를 실시간으로 감소시켜 하드웨어 예산에 맞게 연산량을 조정합니다.
- Training‑time token sharing: 모든 토큰 유형을 학습에 사용하여 모델이 다양한 스케일에서 협력하도록 학습하지만, 배포 시에는 일부만 필요합니다.
- Competitive performance: 원본 LLaVA 및 기타 토큰‑효율적인 베이스라인과 동등한 성능을 달성하면서 시각 토큰을 **≤ 30 %**만 사용합니다.
- Extensive benchmark evaluation: 표준 VQA, 캡션링, 멀티모달 추론 데이터셋에서 테스트되어 다양한 작업에 대한 견고함을 입증했습니다.
방법론
-
특징 추출
- Global token: CNN/ViT 백본에서 전체 이미지를 요약한 단일 벡터.
- Patch tokens: 작은 패치(예: 16×16)의 규칙적인 그리드로, 세밀한 디테일을 제공.
- Mask‑based object tokens: 사전 학습된 객체 탐지기(예: Mask‑RCNN)로 감지된 영역. 각 영역은 객체 형태와 의미를 포착하는 토큰으로 풀링됨.
-
토큰 융합
- 세 종류의 토큰을 모두 연결(concatenate)한 뒤, 가벼운 트랜스포머 인코더에 입력하여 서로 간의 교차‑어텐션을 학습한다.
- 학습 중에는 전체 토큰 세트를 사용하여, 다양한 스케일에 걸쳐 정보를 분산하도록 모델을 유도한다.
-
동적 추론
- 테스트 시 토큰 예산을 지정할 수 있다. 모델은 객체 토큰을 원하는 만큼(심지어 전부) 제거하면서도 글로벌 토큰과 패치 토큰은 계속 사용할 수 있다.
- 재학습이 필요 없으며, 인코더는 이미 누락된 토큰을 보완하도록 학습되어 있다.
-
자기회귀 언어 디코더
- 융합된 시각 표현이 대형 언어 모델(LLaVA 디코더)의 조건이 되어, 답변, 캡션 또는 기타 텍스트 출력을 토큰 단위로 생성한다.
Results & Findings
| Dataset | Baseline (LLaVA) | Mask‑LLaVA (full tokens) | Mask‑LLaVA (30 % tokens) |
|---|---|---|---|
| VQAv2 | 73.2 % | 72.8 % | 71.9 % |
| COCO Caption | 126.4 CIDEr | 125.9 CIDEr | 124.3 CIDEr |
| GQA | 61.5 % | 60.9 % | 60.1 % |
- 토큰 감소: 전체 시각 토큰 중 약 30 %만 사용(대부분 전역 토큰 + 일부 객체 토큰)해도 정확도 감소가 2 % 미만에 머무릅니다.
- 속도 향상: 트랜스포머가 처리하는 토큰 수가 줄어들어 단일 A100 GPU에서 추론 시간이 2.5×–3× 빨라집니다.
- 소거 실험: 전역, 패치, 객체 토큰 중 어느 하나라도 제거하면 동적 프루닝보다 더 큰 성능 저하가 발생하며, 이는 세 수준의 토큰이 서로 보완적인 정보를 제공함을 확인합니다.
Practical Implications
- Cost‑effective deployment: 클라우드 서비스나 엣지 디바이스는 지연 시간이나 예산 제약에 따라 토큰 예산을 제한할 수 있어 VLM을 실시간 애플리케이션(예: 인터랙티브 어시스턴트, AR 오버레이)에서 활용 가능하게 합니다.
- Scalable multimodal pipelines: 기존 LLaVA‑기반 제품은 최소한의 코드 변경으로 Mask‑LLaVA를 도입할 수 있습니다—시각 인코더만 교체하고 필요에 따라 토큰 예산을 설정하면 됩니다.
- Better handling of crowded scenes: 객체 마스크를 사용하면 모델이 중요한 엔티티에 집중할 수 있어 로봇공학, 자율주행, 소매 분석 등 배경 텍스처보다 특정 객체가 더 중요한 분야에 유용합니다.
- Energy savings: 토큰 수가 줄어들면 메모리 트래픽이 감소하고 GPU 전력 소모가 낮아져 대규모 AI 서비스의 지속 가능성 목표와 부합합니다.
제한 사항 및 향후 작업
- 프리트레인된 탐지기에 대한 의존성: 마스크 기반 토큰의 품질은 객체 탐지기에 좌우되며, 탐지 실패는 언어 모델에 전파될 수 있습니다.
- 고정된 토큰 계층 구조: 현재 설계는 세 개의 정적 레벨을 사용합니다; 적응형 토큰 세분화(예: 패치를 동적으로 병합) 탐색은 추가적인 이득을 가져올 수 있습니다.
- 벤치마크 범위: 실험은 표준 VQA 및 캡셔닝 작업에 초점을 맞추었으며, 보다 다양한 도메인(의료 영상, 비디오)에서의 평가는 아직 열려 있습니다.
- 하드웨어‑특화 튜닝: 최적 토큰 예산은 GPU/TPU마다 다를 수 있으며, 자동 프로파일링 도구가 개발자가 적절한 트레이드‑오프를 선택하는 데 도움이 될 수 있습니다.
Mask‑LLaVA는 스마트한 토큰 구성이 비전‑언어 모델의 계산 비용을 크게 줄이면서 대부분의 기능을 유지할 수 있음을 보여줍니다—이는 멀티모달 AI를 실제 환경에 도입하는 속도를 가속화할 수 있는 통찰입니다.
저자
- Soumya Jahagirdar
- Walid Bousselham
- Anna Kukleva
- Hilde Kuehne
논문 정보
- arXiv ID: 2602.04864v1
- 분류: cs.CV
- 출판일: 2026년 2월 4일
- PDF: PDF 다운로드