[Paper] VISion On Request: 희소하고 동적으로 선택된 비전-언어 상호작용을 통한 VLLM 효율성 향상

발행: 1일 전 (2026년 3월 25일 AM 02:58 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2603.23495v1

번역할 텍스트를 제공해 주시면, 요청하신 대로 한국어로 번역해 드리겠습니다.

Overview

이 논문은 VISion On Request (VISOR) 라는 새로운 방식을 소개합니다. VISOR는 대형 비전‑언어 모델(LVLM)이 시각적 디테일을 손실하지 않으면서 더 빠르게 실행될 수 있게 합니다. 이미지들을 더 적은 토큰으로 축소하는 기존 전략은 세밀한 작업에서 성능을 저하시킬 위험이 있는데, VISOR는 전체 해상도의 시각 토큰을 유지하면서 언어 모델이 이를 언제 그리고 어떻게 바라볼지를 선택적으로 희소화합니다. 이를 통해 추론 시간은 크게 단축되면서도 다양한 비전‑언어 벤치마크에서 정확도는 유지되거나 오히려 향상됩니다.

주요 기여

Sparse cross‑attention design: 언어 모델이 모든 시각 토큰에 주의를 기울일 수 있도록 하는 경량 크로스‑어텐션 레이어를 도입하고, 대부분의 연산은 전략적으로 배치된 소수의 셀프‑어텐션 레이어가 수행합니다.
Dynamic computation policy: 입력 샘플마다 추정된 시각 복잡도에 기반해 활성화할 셀프‑어텐션 레이어 수를 결정하는 경량 컨트롤러를 제안합니다.
Universal multi‑budget training: 활성화되는 셀프‑어텐션 블록 수를 조절하기만 하면 초고속부터 고정밀까지 다양한 계산 예산에서 동작할 수 있는 단일 VISOR 모델을 학습합니다.
State‑of‑the‑art performance with lower FLOPs: 기존 토큰 감소 방법에 비해 FLOPs를 최대 70 % 절감하면서도 다양한 비전‑언어 작업에서 최고의 결과와 동등하거나 이를 능가하는 성능을 입증합니다.
Robustness on fine‑grained reasoning: 시각적 그라운딩, 상세 VQA, 복잡한 장면 캡셔닝 등 세밀한 시각 이해가 요구되는 작업에서 특히 큰 향상을 보입니다.

Methodology

Full‑resolution visual tokenization – 이미지가 표준 비전 인코더를 사용해 14×14 또는 28×28 패치와 같은 촘촘한 격자 형태의 시각 토큰으로 분할되어 세밀한 디테일을 보존합니다.
Sparse interaction schedule –
- Cross‑attention layers (수량이 적음)는 언어 모델이 전체 시각 토큰 집합을 읽을 수 있게 하여 낮은 비용으로 전역 컨텍스트를 제공합니다.
- Selective self‑attention layers는 드물게 교차 배치되며, 각 레이어는 현재 텍스트 질의와 가장 관련성이 높은 일부 시각 토큰을 정제합니다.
Dynamic policy network – 작은 분류기(예: 2‑layer MLP)가 초기 텍스트‑이미지 임베딩을 처리하고 해당 샘플에 필요한 self‑attention 정제 횟수를 예측합니다. 쉬운 질의는 레이어 수가 적고, 복잡하고 디테일이 많은 질의는 레이어 수가 많아집니다.
Multi‑budget training – 학습 중에 모델은 무작위 예산(다양한 self‑attention 레이어 수)에 노출되어 예산에 구애받지 않는 능력을 학습합니다. 모든 예산 설정에 대해 손실을 누적시켜, 추론 시 할당된 연산량에 관계없이 동일한 가중치가 잘 작동하도록 합니다.

전체 파이프라인은 다음과 같이 시각화할 수 있습니다:

Image → Vision Encoder → Visual Tokens → (Cross‑Attention) ↔ Text Tokens → (Dynamic Self‑Attention) → Refined Visual Representations → Language Decoder → Output

결과 및 발견

벤치마크	베이스라인 (토큰 감소)	VISOR (동일 FLOPs)	전체 모델 대비 FLOP 감소
VQAv2 (정확도)	73.1 %	74.3 %	~55 %
RefCOCO (시각적 그라운딩 IoU)	68.4 %	70.1 %	~60 %
COCO Caption (CIDEr)	124.5	126.2	~62 %
GQA (정확도)	60.2 %	61.0 %	~58 %
Zero‑shot OCR (F1)	78.0 %	79.5 %	~70 %

효율성: 모든 작업에서 VISOR는 전체적으로 조밀한 교차 주의를 사용하는 동일 모델에 비해 ~70 % 적은 FLOPs를 달성합니다.
동적 예산 할당: 난이도가 혼합된 테스트 세트에서 정책 네트워크는 “쉬운” 샘플에 평균 3개의 자체 주의 레이어를, “어려운” 샘플에 최대 7개의 레이어를 할당하여 속도와 정확도를 자동으로 균형 맞춥니다.
절제 연구: 동적 정책이나 선택적 자체 주의 레이어를 제거하면 성능이 1.5–2 % 감소하여 각 구성 요소의 기여도를 확인할 수 있습니다.

Practical Implications

Faster inference for production APIs: LVLM 기능을 제공하는 클라우드 서비스(예: 멀티모달 챗봇, 이미지‑기반 검색)는 응답 지연 시간과 GPU 비용을 크게 줄이면서도 답변 품질을 희생하지 않을 수 있습니다.
Edge deployment: 동일한 모델을 여러 예산으로 실행할 수 있는 능력은 스마트폰이나 임베디드 디바이스에서 경량 버전을 구동하고, 디바이스에 여유 컴퓨팅 자원이 있을 때만 확장하는 것을 가능하게 합니다.
Adaptive pipelines: 개발자는 정책 네트워크를 기존 프레임워크(PyTorch, TensorFlow)에 통합하여 요청마다 필요한 시각 처리량을 자동으로 결정할 수 있어, 마이크로‑서비스 아키텍처에서 자원 오케스트레이션을 단순화합니다.
Improved fine‑grained applications: 의료 이미지 캡션, 정밀 제품 검사, AR 지원 등 미세한 시각적 단서가 중요한 작업은 VISOR가 고해상도 시각 토큰을 보존함으로써 이점을 얻습니다.

제한 사항 및 향후 연구

Policy overhead: 비록 가볍지만, 동적 컨트롤러는 작은 상수 지연을 추가한다; 추가적인 프루닝이나 하드웨어‑특화 최적화를 통해 이를 줄일 수 있다.
Training complexity: 다중‑예산 학습은 신중한 스케줄링과 단일‑예산 모델보다 더 많은 GPU 메모리를 요구한다, 이는 소규모 연구실에 장벽이 될 수 있다.
Generalization to non‑grid tokenizers: VISOR는 패치‑기반 비전 인코더와 함께 시연되었으며; 영역‑기반 또는 트랜스포머‑기반 탐지기로 접근을 확장하는 것은 아직 미해결 과제이다.
Future directions: 저자들은 더욱 미세한 제어를 위한 강화학습 기반 정책 탐색, 시각 토큰의 품질을 높이기 위한 비전‑전용 사전학습 통합, 그리고 희소성 원리를 다중모달 비디오‑언어 모델에 적용하는 것을 제안한다.

저자

Adrian Bulat
Alberto Baldrati
Ioannis Maniadis Metaxas
Yassine Ouali
Georgios Tzimiropoulos

논문 정보

arXiv ID: 2603.23495v1
분류: cs.CV, cs.AI, cs.LG
출판일: 2026년 3월 24일
PDF: Download PDF

[Paper] VISion On Request: 희소하고 동적으로 선택된 비전-언어 상호작용을 통한 VLLM 효율성 향상

Overview

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] MedObvious: Clinical Triage를 이용한 VLM에서의 Medical Moravec's Paradox 공개

[Paper] VTAM: 복잡한 물리적 상호작용을 위한 Video‑Tactile‑Action Models, VLAs를 넘어

[Paper] InverFill: 향상된 Few-Step Diffusion Inpainting을 위한 One-Step Inversion

[Paper] WorldCache: 콘텐츠 인식 캐싱을 통한 가속화된 비디오 월드 모델