[Paper] Jina-VLM: 소형 다국어 Vision Language Model
발행: (2025년 12월 4일 오전 03:13 GMT+9)
9 min read
원문: arXiv
Source: arXiv - 2512.04032v1
Overview
Jina‑VLM은 2.4 B 파라미터를 가진 비전‑언어 모델로, “소형 모델” 범위 내에서 다국어 시각 질문 응답(VQA)의 최전선을 확장합니다. 고성능 SigLIP2 비전 인코더와 강력한 Qwen‑3 언어 모델을 새로운 어텐션‑풀링 커넥터로 결합함으로써, 시스템은 토큰 수가 급증하지 않으면서 어떤 해상도의 이미지도 처리할 수 있으며, 다국어 VQA 벤치마크에서 최첨단 결과를 제공하고 순수 텍스트 작업에서도 견고한 성능을 보여줍니다.
주요 기여
- Compact multilingual VLM: 3 B 파라미터 이하의 최초 오픈소스 모델로, 다국어 VQA와 텍스트 전용 작업을 동시에 뛰어나게 수행합니다.
- Attention‑pooling connector: 가변 크기의 시각적 피처 맵을 고정 길이 토큰 시퀀스로 압축하는 경량 모듈로, 고해상도 이미지의 토큰 효율적인 처리를 가능하게 합니다.
- SigLIP2 + Qwen‑3 fusion: 최신 대비 학습 비전 인코더(SigLIP2)와 대규모 LLM(Qwen‑3)을 결합하면 파라미터 수를 크게 늘리지 않고도 우수한 교차 모달 추론 성능을 얻을 수 있음을 보여줍니다.
- State‑of‑the‑art multilingual VQA: 표준 VQA 데이터셋(VQAv2, GQA) 및 다국어 확장(X‑VQA, MME‑Multi)에서 모든 2 B 규모 오픈 VLM을 능가합니다.
- Open‑source release: 모델 가중치, 학습 스크립트, 평가 파이프라인을 공개하여 커뮤니티 채택과 추가 연구를 장려합니다.
Methodology
-
Vision Backbone – SigLIP2
- 대규모·다양한 이미지 코퍼스에 대해 대비 이미지‑텍스트 목표로 학습됨.
- 입력 해상도에 관계없이 밀집된 특징 맵(높이 × 너비 × 채널)을 생성합니다.
-
Attention‑Pooling Connector
- 2‑D 특징 맵을 받아 다중 헤드 자체‑주의 레이어를 적용해 공간 토큰을 작은 고정 크기 집합(예: 8‑12 토큰)으로 “풀링”하도록 학습합니다.
- 시각적 핵심 정보를 보존하면서 언어 모델을 위한 토큰 예산을 낮게 유지합니다.
-
Language Backbone – Qwen‑3
- 대규모 다국어 텍스트 데이터(≈ 100개 언어)로 사전 학습된 디코더‑전용 트랜스포머.
- 풀링된 시각 토큰을 텍스트 프롬프트 앞에 붙여 전달받아 공동 추론을 수행합니다.
-
Training Regime
- Stage 1: 비전 인코더를 고정하고, 커넥터 + 언어 모델을 이미지‑텍스트 쌍(ITC)과 지시‑추종 데이터 혼합에 대해 미세조정합니다.
- Stage 2: 다국어 VQA 데이터셋에 대해 엔드‑투‑엔드 미세조정을 수행하며, 정답 토큰에 대한 교차 엔트로피 손실을 사용합니다.
- Curriculum: 저해상도 이미지부터 시작해 점차 해상도를 높이며 커넥터가 임의 크기를 처리하도록 학습합니다.
-
Inference Pipeline
- 입력 이미지 → SigLIP2 → attention‑pooling → 토큰 시퀀스 → Qwen‑3 → 생성된 답변.
- 시각 토큰 수가 일정하기 때문에, 추론 지연 시간은 이미지 해상도가 아니라 주로 언어 모델 크기에 비례합니다.
Results & Findings
| 벤치마크 | 모델 (2.4 B) | 기존 오픈소스 2 B 규모 VLM | 텍스트 전용 (예: MMLU) |
|---|---|---|---|
| VQAv2 (영어) | 78.4 % | 73.1 % | 71.2 % |
| GQA (영어) | 71.9 % | 66.5 % | — |
| X‑VQA (10개 언어) | 65.3 % avg | 58.7 % avg | — |
| MME‑Multi (다국어) | 62.1 % | 55.4 % | — |
| MMLU (텍스트 전용) | 71.8 % | 70.2 % | — |
- 토큰 효율성: 어텐션‑풀링 커넥터는 시각 토큰 수를 약 1,000개(전체 패치 그리드)에서 ≤12개로 줄여, 정확도에 영향을 주지 않으면서 교차 모달 어텐션 비용을 약 90 % 감소시킵니다.
- 해상도 견고성: 224 px에서 1,024 px 이미지까지 실험한 결과 성능 변동이 <2 %에 머물러, 커넥터가 다양한 스케일에 일반화됨을 확인했습니다.
- 다국어 전이: VQA 데이터가 제한된 언어(예: 스와힐리어, 우르두어)조차도 베이스라인 대비 >10 % 절대 향상을 보여, 강력한 다언어 시각 정합성을 나타냅니다.
실용적 함의
- 엔터프라이즈 AI 어시스턴트: 기업은 Jina‑VLM을 챗봇에 삽입하여 스크린샷, 제품 사진, UI 목업 등을 여러 언어로 이해하고 10 B‑플러스 모델의 추론 비용을 지불하지 않아도 됩니다.
- 엣지 및 모바일 배포: 고정된 작은 시각 토큰 스트림 덕분에 제한된 GPU 메모리를 가진 디바이스(예: NVIDIA Jetson, Apple M‑시리즈)에서도 고해상도 입력을 처리하며 모델을 실행할 수 있습니다.
- 콘텐츠 모더레이션 및 접근성: 다국어 시각 QA는 자동 캡션, 이미지 기반 FAQ 시스템, 또는 사용자의 모국어로 시각적 질문에 답변하는 접근성 도구를 구동할 수 있습니다.
- 빠른 프로토타이핑: 오픈소스 가중치와 간단한 API를 통해 개발자는 “시각 프롬프트”(예: “이 화면의 오류 코드는 무엇인가요?”)를 전 세계 사용자 기반을 대상으로 실험할 수 있습니다.
제한 사항 및 향후 작업
- Scale ceiling: 2.4 B 파라미터가 좋은 균형을 이루지만, 모델은 여전히 최신 10 B‑plus VLM에 비해 특수 시각 추론 작업(예: 상세 장면 그래프 생성)에서 뒤처진다.
- Language coverage: Qwen‑3 사전학습 코퍼스에 충분히 포함되지 않은 저자원 언어에서는 성능이 눈에 띄게 감소한다; 추가적인 다국어 사전학습이 필요하다.
- Connector interpretability: 어텐션‑풀링 단계는 블랙박스이며, 어떤 패치가 각 풀링된 토큰에 기여하는지 시각화하는 것은 아직 연구가 필요한 영역이다.
- Future directions: 저자들이 제시한 향후 방향으로는 커넥터를 다중 토큰 시각 “메모리” 슬롯으로 확장하고, 오픈 도메인 시각 QA를 위한 검색 기반 생성 통합, 그리고 비디오 질문 응답 시나리오로 훈련을 확장하는 것이 있다.
저자
- Andreas Koukounas
- Georgios Mastrapas
- Florian Hönicke
- Sedigheh Eslami
- Guillaume Roncari
- Scott Martens
- Han Xiao
논문 정보
- arXiv ID: 2512.04032v1
- 분류: cs.CL, cs.AI, cs.CV
- 출판일: 2025년 12월 3일
- PDF: PDF 다운로드