[Paper] Jina-VLM: 소형 다국어 Vision Language Model
발행: (2025년 12월 4일 오전 03:13 GMT+9)
9 min read
원문: arXiv
Source: arXiv - 2512.04032v1
개요
Jina‑VLM은 2.4 B 파라미터 규모의 비전‑언어 모델로, 다국어 시각 질문 응답(VQA) 분야의 최첨단을 달성하면서도 “소형 모델” 범주에 머물러 있습니다. 고성능 SigLIP2 비전 인코더와 강력한 Qwen‑3 언어 모델을 새로운 어텐션‑풀링 커넥터로 결합함으로써, 이미지 해상도에 관계없이 토큰 수가 폭증하지 않으면서 다국어 VQA 벤치마크에서 최첨단 결과를 제공하고 순수 텍스트 작업에서도 견고한 성능을 보여줍니다.
주요 기여
- 컴팩트한 다국어 VLM: 다국어 VQA와 텍스트 전용 작업을 동시에 뛰어나게 수행하는 3 B 이하 파라미터 오픈소스 모델 최초.
- 어텐션‑풀링 커넥터: 가변 크기의 시각 특징 맵을 고정 길이 토큰 시퀀스로 압축하는 경량 모듈로, 고해상도 이미지의 토큰 효율적인 처리를 가능하게 함.
- SigLIP2 + Qwen‑3 융합: 최신 대비 학습 비전 인코더(SigLIP2)와 대규모 LLM(Qwen‑3)을 결합하면 파라미터 급증 없이도 우수한 교차 모달 추론이 가능함을 입증.
- 최첨단 다국어 VQA: 표준 VQA 데이터셋(VQAv2, GQA) 및 다국어 확장(X‑VQA, MME‑Multi)에서 모든 오픈 2 B‑스케일 VLM을 능가.
- 오픈소스 공개: 모델 가중치, 학습 스크립트, 평가 파이프라인을 공개하여 커뮤니티 채택 및 추가 연구를 촉진.
방법론
-
비전 백본 – SigLIP2
- 대규모 다양성 이미지 코퍼스를 이용한 대비 이미지‑텍스트 목표로 학습.
- 입력 해상도에 관계없이 밀집 특징 맵(높이 × 너비 × 채널) 생성.
-
어텐션‑풀링 커넥터
- 2‑D 특징 맵에 다중 헤드 자체 어텐션 레이어를 적용해 공간 토큰을 작은 고정 크기 집합(예: 8‑12 토큰)으로 “풀링”하도록 학습.
- 핵심 시각 정보를 보존하면서 언어 모델의 토큰 예산을 낮게 유지.
-
언어 백본 – Qwen‑3
- 대규모 다국어 텍스트 데이터(≈ 100개 언어)로 사전 학습된 디코더‑전용 트랜스포머.
- 풀링된 시각 토큰을 텍스트 프롬프트 앞에 삽입해 공동 추론을 수행.
-
학습 절차
- Stage 1: 비전 인코더를 고정하고 커넥터 + 언어 모델을 이미지‑텍스트 쌍(ITC) 및 지시‑추종 데이터 혼합에 대해 미세조정.
- Stage 2: 다국어 VQA 데이터셋에 대해 엔드‑투‑엔드 미세조정, 정답 토큰에 교차 엔트로피 손실 적용.
- 커리큘럼: 저해상도 이미지부터 시작해 점차 해상도를 높이며 커넥터가 임의 크기를 처리하도록 학습.
-
추론 파이프라인
- 입력 이미지 → SigLIP2 → 어텐션‑풀링 → 토큰 시퀀스 → Qwen‑3 → 생성된 답변.
- 시각 토큰 수가 일정하기 때문에 추론 지연 시간은 주로 언어 모델 크기에 비례하고 이미지 해상도에는 크게 의존하지 않음.
결과 및 분석
| 벤치마크 | 모델 (2.4 B) | 이전 오픈소스 2 B‑스케일 VLM | 텍스트 전용 (예: MMLU) |
|---|---|---|---|
| VQAv2 (영어) | 78.4 % | 73.1 % | 71.2 % |
| GQA (영어) | 71.9 % | 66.5 % | — |
| X‑VQA (10개 언어) | 65.3 % 평균 | 58.7 % 평균 | — |
| MME‑Multi (다국어) | 62.1 % | 55.4 % | — |
| MMLU (텍스트 전용) | 71.8 % | 70.2 % | — |
- 토큰 효율성: 어텐션‑풀링 커넥터는 시각 토큰 수를 ~1,000(전체 패치 그리드)에서 ≤12로 감소시켜 교차 모달 어텐션 비용을 약 90 % 절감하면서 정확도 저하를 방지.
- 해상도 강인성: 224 px부터 1,024 px까지 이미지 실험에서 성능 변동이 <2 %에 머물러, 커넥터가 다양한 스케일에 일반화됨을 확인.
- 다국어 전이: VQA 데이터가 제한적인 언어(예: 스와힐리어, 우르두어)에서도 베이스라인 대비 10 % 이상의 절대 향상이 나타나, 강력한 교차 언어 시각 정착 능력을 시사.
실용적 함의
- 기업 AI 어시스턴트: 기업은 Jina‑VLM을 챗봇에 삽입해 스크린샷, 제품 사진, UI 목업 등을 다국어로 이해하도록 할 수 있으며, 10 B‑이상 모델의 추론 비용을 지불하지 않아도 됨.
- 엣지·모바일 배포: 고정된 소형 시각 토큰 스트림 덕분에 제한된 GPU 메모리(NVIDIA Jetson, Apple M‑시리즈 등)를 갖춘 디바이스에서도 고해상도 입력을 처리 가능.
- 콘텐츠 모더레이션·접근성: 다국어 시각 QA는 자동 캡션, 이미지 기반 FAQ 시스템, 사용자의 모국어로 시각 질의에 답하는 접근성 도구 등에 활용될 수 있음.
- 신속한 프로토타이핑: 오픈소스 가중치와 간단한 API를 통해 개발자는 “시각 프롬프트”(예: “이 화면에 표시된 오류 코드는 뭐야?”)를 전 세계 사용자 기반에 걸쳐 실험 가능.
한계 및 향후 연구
- 스케일 한계: 2.4 B 파라미터는 좋은 균형을 제공하지만, 최신 10 B‑이상 VLM에 비해 세부 장면 그래프 생성 등 특수 시각 추론 작업에서는 아직 뒤처짐.
- 언어 커버리지: Qwen‑3 사전 학습 코퍼스에 충분히 포함되지 않은 저자원 언어에서는 성능이 눈에 띄게 감소; 추가 다국어 사전 학습이 필요.
- 커넥터 해석 가능성: 어텐션‑풀링 단계는 블랙박스이며, 어떤 패치가 각 풀링 토큰에 기여하는지 시각화하는 방법은 아직 연구 과제.
- 향후 방향: 저자들이 제시한 바에 따르면, 커넥터를 다중 토큰 “메모리” 슬롯으로 확장하고, 개방형 도메인 시각 QA를 위한 검색 기반 생성(RAG)을 통합하며, 비디오 질문 응답 시나리오로 학습 범위를 확대하는 것이 목표.
저자
- Andreas Koukounas
- Georgios Mastrapas
- Florian Hönicke
- Sedigheh Eslami
- Guillaume Roncari
- Scott Martens
- Han Xiao
논문 정보
- arXiv ID: 2512.04032v1
- 분류: cs.CL, cs.AI, cs.CV
- 발표일: 2025년 12월 3일
- PDF: Download PDF