[Paper] DiffusionVL: 모든 자동회귀 모델을 Diffusion Vision Language 모델로 변환
Source: arXiv - 2512.15713v1
개요
논문 DiffusionVL은 강력한 자기회귀(AR) 비전‑언어 모델(VLM)을 약간의 파인‑튜닝만으로 확산 기반 VLM으로 전환할 수 있음을 보여줍니다. 확산 모델의 우수한 디코딩 특성—예를 들어 더 부드러운 생성과 불확실성에 대한 더 나은 처리—을 활용함으로써, 저자들은 새로운 “확산 VLM” 계열을 구현했으며, 이는 최신 AR 모델의 성능과 동등하거나 이를 능가하면서도 최대 두 배 빠르게 실행됩니다.
주요 기여
- Universal translation pipeline – any 사전 학습된 AR VLM(예: LLaVA, MiniGPT‑4)을 diffusion vision‑language model(dVLM)로 변환하는 간단한 파인‑튜닝 레시피.
- Performance boost with tiny data – 기존 diffusion VLM이 사용한 데이터의 < 5 %만으로 학습하면서도 주요 멀티모달 벤치마크(MMMU‑Pro, MME)에서 **34 %–38 %**의 상대적 향상을 달성.
- Block‑decoding architecture – 블록 단위 디코딩 방식을 도입해 임의 길이 출력, KV‑cache 재사용을 가능하게 하고, 기존 diffusion 디코딩에 비해 ≈2× 추론 속도 향상을 제공.
- Competitive with AR instruction‑tuning – 별도의 멀티모달 인스트럭션 데이터 없이 직접 변환된 AR 모델이 LLaVA 스타일의 시각‑인스트럭션 튜닝과 경쟁할 수 있음을 보여줌.
- Open‑source release – 코드, 모델, 학습 스크립트가 공개되어 빠른 도입과 추가 연구를 촉진.
방법론
- AR VLM에서 시작 – 저자들은 대규모 텍스트 코퍼스(예: LLaMA)로 이미 학습된 강력한 언어 백본을 사용하고, 필요에 따라 시각 어댑터를 장착한다.
- 디코더 교체 – AR 토큰‑별 디코더를 확산 디코더로 교체하여 노이즈가 섞인 토큰 임베딩을 예측하고, 고정된 확산 단계 수에 걸쳐 점진적으로 디노이즈한다.
- 다중모달 데이터에 미세조정 – 이전 확산 VLM이 사용한 양의 약 5 % 수준인 적당한 다중모달 데이터셋을 활용해 시각 특징을 확산 언어 공간에 정렬하도록 모델을 학습한다. 손실은 표준 확산 재구성 손실과 최종 클린 토큰에 대한 교차 엔트로피를 결합한다.
- 블록‑디코딩 트릭 – 확산 단계당 하나의 토큰을 생성하는 대신, 모델은 블록 단위(예: 8‑16 토큰)의 토큰을 병렬로 예측한다. 이전 블록의 KV 캐시를 재사용함으로써 긴 문장에 필요한 확산 패스 수를 크게 줄인다.
- 추론 파이프라인 – 테스트 시, 모델은 블록당 소수의 확산 단계만 수행하여 이미지에 조건화된 유창하고 고품질의 캡션, 답변, 혹은 지시문을 생성한다.
결과 및 발견
| 벤치마크 | 메트릭 | DiffusionVL (ours) | Prior Diffusion VLM | AR‑style VLM |
|---|---|---|---|---|
| MMMU‑Pro (시각) | 정확도 ↑ | +34.4 % prior diffusion 대비 | – | 비슷함 |
| MME (인지) | 점수 ↑ | +37.5 % prior diffusion 대비 | – | 최첨단에 근접 |
| 추론 지연시간 | 토큰당 시간 | 2× 빠름 vanilla diffusion 대비 | – | AR와 유사 |
- 패러다임 전환이 효과적 – AR에서 diffusion으로 전환하면 기본 언어 모델이 동일해도 명확한 품질 향상이 나타납니다.
- 직접 변환이 가능 – 디코더를 교체하고 미세 조정만으로도 광범위한 시각‑지시 튜닝을 거친 모델과 동등한 결과를 얻을 수 있습니다.
- 속도‑효율성 – 블록 디코딩은 diffusion의 견고함을 유지하면서 AR 스타일 지연시간의 대부분을 회복합니다.
실용적 함의
- 멀티모달 어시스턴트의 빠른 프로토타이핑 – 팀은 기존 LLM(예: LLaMA‑2)을 사용하고 몇 시간만에 파인튜닝하면, 개방형 생성에 더 안정적인(예: 환각 감소, 토큰 분포 부드러움) diffusion 기반 VLM을 얻을 수 있습니다.
- 비용 효율적인 학습 – 멀티모달 데이터의 일부만 필요하기 때문에, 스타트업과 연구실은 현재 diffusion VLM 연구를 지배하는 방대한 데이터 파이프라인 없이도 경쟁력 있는 VLM을 구축할 수 있습니다.
- 긴 출력에 대한 확장 가능한 생성 – 블록 디코딩은 보고서 생성, 코드 설명, 또는 다단계 추론과 같이 출력 길이가 수백 토큰에 달할 수 있는 작업에 diffusion을 실용적으로 만듭니다.
- 생성 비전 모델과의 더 나은 통합 – Diffusion VLM은 diffusion 이미지 생성기(예: Stable Diffusion)와 자연스럽게 정렬되어, 창의적 응용 분야에서 “이미지‑텍스트‑이미지” 루프를 긴밀히 연결할 수 있는 길을 엽니다.
- 오픈소스 기반 – 공개된 리포지토리는 플러그‑앤‑플레이 변환 스크립트를 제공하여, 개발자들이 자체 멀티모달 파이프라인에서 diffusion 디코딩을 실험하는 장벽을 낮춥니다.
제한 사항 및 향후 연구
- Diffusion step budget – 블록 디코딩으로 속도가 빨라지긴 하지만, 확산은 여전히 블록당 여러 번의 디노이징 단계가 필요해 저전력 디바이스에서 병목이 될 수 있습니다.
- Dependence on a strong AR backbone – 품질 상한은 원래 AR 모델에 의존합니다; 약한 AR VLM을 변환해도 강력한 dVLM이 자동으로 만들어지지는 않습니다.
- Limited modality scope – 현재 연구는 시각‑언어에 초점을 맞추고 있으며, 번역 파이프라인을 오디오, 비디오, 3‑D 데이터로 확장하는 것은 아직 해결되지 않은 과제입니다.
- Evaluation on downstream tasks – 벤치마크 점수는 인상적이지만, 실제 사용자 연구(예: 챗 어시스턴트, 코드 어시스턴트)가 필요해 인지된 품질 향상을 확인해야 합니다.
향후 연구 방향으로는 추론 시간을 더욱 줄이기 위한 적응형 확산 스케줄, 시각 및 텍스트 스트림을 동시에 디노이징하는 멀티모달 확산 파이프라인, 그리고 데이터 요구량을 더욱 감소시키기 위한 커리큘럼 파인튜닝 탐색이 포함됩니다.
저자
- Lunbin Zeng
- Jingfeng Yao
- Bencheng Liao
- Hongyuan Tao
- Wenyu Liu
- Xinggang Wang
논문 정보
- arXiv ID: 2512.15713v1
- 분류: cs.CV
- 출판일: 2025년 12월 17일
- PDF: PDF 다운로드