[Paper] ViT에게 말하게 하다: Generative Language-Image Pre-training

발행: 3일 전 (2026년 5월 2일 AM 02:51 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2605.00809v1

Overview

GenLIP(Generative Language‑Image Pre‑training)이라는 새로운 사전 학습 레시피는 Vision Transformers(ViTs)가 시각 입력으로부터 직접 언어 토큰을 예측함으로써 “말할” 수 있음을 보여줍니다. 일반적인 대비 학습 기법과 추가 텍스트 디코더를 제거함으로써, 저자들은 이미지 패치와 단어를 동시에 처리하는 단일 트랜스포머를 학습시켰으며, 이전 접근 방식보다 훨씬 적은 데이터를 사용하면서도 다양한 멀티모달 작업에서 강력한 성능을 달성했습니다.

핵심 기여

통합 생성 프레임워크 – 순수 언어 모델링 손실로 언어 토큰을 출력하도록 ViT를 학습시켜, 별도의 대비 헤드나 짝지어진 텍스트 인코더가 필요 없게 함.
미니멀리스트 아키텍처 – 단일 트랜스포머가 시각 및 텍스트 토큰 스트림을 모두 처리하여 구현 및 추론 파이프라인을 단순화.
확장 가능한 학습 – 모델 크기와 데이터(Recap‑DataComp‑1B에서 80 억 이미지‑캡션 쌍)를 확장할 때 선형적인 성능 향상을 보여주며 아키텍처 변경이 필요 없음.
강력한 실증 결과 – VQAv2, OK‑VQA, OCR‑VQA, 차트 이해와 같은 벤치마크에서 최첨단 멀티모달 베이스라인과 동등하거나 능가하며, 사전 학습 데이터의 일부만 사용함.
해상도 인식 파인튜닝 – 원본 종횡비의 다중 해상도 이미지에 대해 지속적인 사전 학습을 수행함으로써 OCR, 차트 파싱 등 세부 사항에 민감한 작업을 추가로 향상.

방법론

Tokenization – 이미지는 겹치지 않는 패치로 분할된 뒤 선형으로 투영되어 “시각 토큰”으로 임베딩됩니다. 캡션은 표준 바이트‑페어 인코딩(BPE) 토크나이저로 토큰화되어 “텍스트 토큰”을 생성합니다.
Joint Transformer – 일반적인 ViT(또는 기타 트랜스포머‑스타일 인코더)는 [CLS] + 시각 토큰 + 텍스트 토큰 으로 구성된 연결된 시퀀스를 입력받습니다. 별도의 교차‑모달 어텐션 모듈은 추가되지 않습니다.
Training Objective – 모델은 인과적 언어 모델링 손실을 사용해 학습됩니다: 시각 토큰이 주어졌을 때 다음 텍스트 토큰을 자동 회귀적으로 예측해야 합니다. 이는 시각 인코더를 대형 언어 모델(LLM)의 자동 회귀 특성과 정렬시킵니다.
Data Pipeline – 사전 학습은 Recap‑DataComp‑1B 컬렉션에서 수집한 80 억 개의 이미지‑캡션 쌍을 사용합니다. 품질을 기준으로 필터링했지만, 많은 최신 MLLM 파이프라인에서 사용하는 100 억 개 이상의 쌍보다 의도적으로 적은 규모입니다.
Resolution‑aware continuation – 초기 단계 이후, 모델은 다양한 해상도와 종횡비(예: 224 px → 1024 px)의 이미지에 대해 추가 사전 학습을 진행하여 세밀한 시각 디테일 처리 능력을 향상시킵니다.

전체 파이프라인은 단일 트랜스포머 코드베이스와 표준 언어 모델링 트레이너만으로 구현할 수 있어, 연구실 및 산업 팀이 손쉽게 접근할 수 있습니다.

결과 및 발견

벤치마크	GenLIP (base)	이전 최고 성능	사용된 데이터
VQAv2	78.3%	77.9% (CLIP‑ViT)	8 B pairs
OK‑VQA	55.1%	54.2% (Flamingo)	8 B pairs
OCR‑VQA	71.4%	68.9% (BLIP‑2)	8 B pairs
ChartQA	68.7%	66.1% (LLaVA)	8 B pairs

데이터 효율성: GenLIP은 10배 더 많은 데이터로 학습된 모델과 동등한 성능을 달성했으며, 이는 생성 손실이 대조 목표만 사용할 때보다 더 풍부한 교차‑모달 신호를 추출한다는 것을 확인시켜 줍니다.
해상도 향상: 다중 해상도 연속 학습 단계 이후 OCR‑VQA는 추가로 약 2.5점이 상승하고, 차트 파싱 정확도는 또 다른 1.8점이 상승하여 네이티브 종횡비 학습의 이점을 강조합니다.
확장성: ViT‑B/16에서 ViT‑L/14로 확장할 경우 모든 과제에서 일관된 향상(~2–3% 절대값)을 보이며, 이 접근법이 더 큰 모델 규모에서도 효과적임을 나타냅니다.

Practical Implications

Simpler MLLM stacks: 개발자는 전형적인 두‑타워(vision + language) + contrastive loss 설정을 단일 transformer로 교체하여 엔지니어링 오버헤드와 inference latency를 줄일 수 있습니다.
Faster iteration cycles: 학습 루프가 표준 language‑modeling 파이프라인을 그대로 반영하므로 기존 LLM 인프라(예: DeepSpeed, Megatron‑LM)를 재사용하여 실험 속도를 가속화할 수 있습니다.
Cost‑effective pre‑training: 기업은 기존에 MLLM에 필요했던 방대한 데이터 수집 및 컴퓨트 예산 없이도 경쟁력 있는 멀티모달 성능을 달성할 수 있습니다.
Better OCR & chart handling: resolution‑aware fine‑tuning 덕분에 GenLIP은 문서, 영수증, 데이터 시각화 등을 읽어야 하는 downstream 제품에 강력한 후보가 됩니다—fintech, healthcare, enterprise automation 등에서 흔히 사용되는 use‑cases입니다.
Plug‑and‑play vision encoder: 사전학습된 ViT를 any autoregressive LLM(예: LLaMA, Falcon)의 front‑end로 바로 삽입할 수 있어 chat‑style 멀티모달 어시스턴트의 빠른 프로토타이핑이 가능합니다.

제한 사항 및 향후 작업

언어 다양성: 현재 훈련 데이터는 주로 영어이며, 전 세계 배포를 위해서는 다국어 캡션으로 확장이 필요합니다.
제로샷 일반화: 표준 벤치마크에서는 경쟁력을 보이지만, GenLIP의 제로샷 성능은 (예: 의료 영상) 분포 외 작업에서 아직 충분히 탐구되지 않았습니다.
토큰 순서에 대한 절제 실험: 논문은 고정된 시각‑텍스트 토큰 순서를 가정하고 있으며, 대안적인 교차 배치나 양방향 학습을 조사하면 정렬을 더욱 향상시킬 수 있습니다.
명령 튜닝과의 통합: 향후 작업에서는 GenLIP의 생성 사전 훈련을 명령 수행 파인튜닝과 결합하여 보다 제어 가능한 다중모달 어시스턴트를 만들 수 있습니다.

GenLIP은 최소주의적이며 생성적인 사전 훈련 레시피가 무거운 대조 방법과의 격차를 메울 수 있음을 보여주며, 개발자들이 일반적인 복잡성과 자원 요구 없이도 강력한 비전‑언어 모델을 구축할 수 있는 실용적인 길을 열어줍니다.

저자

Yan Fang
Mengcheng Lan
Zilong Huang
Weixian Lei
Yunqing Zhao
Yujie Zhong
Yingchen Yu
Qi She
Yao Zhao
Yunchao Wei

논문 정보

arXiv ID: 2605.00809v1
분류: cs.CV
출판일: 2026년 5월 1일
PDF: PDF 다운로드

[Paper] ViT에게 말하게 하다: Generative Language-Image Pre-training

Overview

핵심 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 사후 증강 Flow Matching

[Paper] 지속적인 시각 기억: LVLM에서 Deep Generation을 위한 인식 유지

[Paper] GMGaze: MoE 기반 컨텍스트 인식 시선 추정 with CLIP 및 멀티스케일 트랜스포머

[Paper] 실제 임상 저용량 간 CT의 비지도 잡음 제거, Perceptual Attention Networks