[Paper] DiffusionVL: 모든 자동회귀 모델을 Diffusion Vision Language 모델로 변환

발행: 1개월 전 (2025년 12월 18일 오전 03:59 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2512.15713v1

개요

논문 DiffusionVL은 강력한 자기회귀(AR) 비전‑언어 모델(VLM)을 약간의 파인‑튜닝만으로 확산 기반 VLM으로 전환할 수 있음을 보여줍니다. 확산 모델의 우수한 디코딩 특성—예를 들어 더 부드러운 생성과 불확실성에 대한 더 나은 처리—을 활용함으로써, 저자들은 새로운 “확산 VLM” 계열을 구현했으며, 이는 최신 AR 모델의 성능과 동등하거나 이를 능가하면서도 최대 두 배 빠르게 실행됩니다.

주요 기여

Universal translation pipeline – any 사전 학습된 AR VLM(예: LLaVA, MiniGPT‑4)을 diffusion vision‑language model(dVLM)로 변환하는 간단한 파인‑튜닝 레시피.
Performance boost with tiny data – 기존 diffusion VLM이 사용한 데이터의 < 5 %만으로 학습하면서도 주요 멀티모달 벤치마크(MMMU‑Pro, MME)에서 **34 %–38 %**의 상대적 향상을 달성.
Block‑decoding architecture – 블록 단위 디코딩 방식을 도입해 임의 길이 출력, KV‑cache 재사용을 가능하게 하고, 기존 diffusion 디코딩에 비해 ≈2× 추론 속도 향상을 제공.
Competitive with AR instruction‑tuning – 별도의 멀티모달 인스트럭션 데이터 없이 직접 변환된 AR 모델이 LLaVA 스타일의 시각‑인스트럭션 튜닝과 경쟁할 수 있음을 보여줌.
Open‑source release – 코드, 모델, 학습 스크립트가 공개되어 빠른 도입과 추가 연구를 촉진.

방법론

AR VLM에서 시작 – 저자들은 대규모 텍스트 코퍼스(예: LLaMA)로 이미 학습된 강력한 언어 백본을 사용하고, 필요에 따라 시각 어댑터를 장착한다.
디코더 교체 – AR 토큰‑별 디코더를 확산 디코더로 교체하여 노이즈가 섞인 토큰 임베딩을 예측하고, 고정된 확산 단계 수에 걸쳐 점진적으로 디노이즈한다.
다중모달 데이터에 미세조정 – 이전 확산 VLM이 사용한 양의 약 5 % 수준인 적당한 다중모달 데이터셋을 활용해 시각 특징을 확산 언어 공간에 정렬하도록 모델을 학습한다. 손실은 표준 확산 재구성 손실과 최종 클린 토큰에 대한 교차 엔트로피를 결합한다.
블록‑디코딩 트릭 – 확산 단계당 하나의 토큰을 생성하는 대신, 모델은 블록 단위(예: 8‑16 토큰)의 토큰을 병렬로 예측한다. 이전 블록의 KV 캐시를 재사용함으로써 긴 문장에 필요한 확산 패스 수를 크게 줄인다.
추론 파이프라인 – 테스트 시, 모델은 블록당 소수의 확산 단계만 수행하여 이미지에 조건화된 유창하고 고품질의 캡션, 답변, 혹은 지시문을 생성한다.

결과 및 발견

벤치마크	메트릭	DiffusionVL (ours)	Prior Diffusion VLM	AR‑style VLM
MMMU‑Pro (시각)	정확도 ↑	+34.4 % prior diffusion 대비	–	비슷함
MME (인지)	점수 ↑	+37.5 % prior diffusion 대비	–	최첨단에 근접
추론 지연시간	토큰당 시간	2× 빠름 vanilla diffusion 대비	–	AR와 유사

패러다임 전환이 효과적 – AR에서 diffusion으로 전환하면 기본 언어 모델이 동일해도 명확한 품질 향상이 나타납니다.
직접 변환이 가능 – 디코더를 교체하고 미세 조정만으로도 광범위한 시각‑지시 튜닝을 거친 모델과 동등한 결과를 얻을 수 있습니다.
속도‑효율성 – 블록 디코딩은 diffusion의 견고함을 유지하면서 AR 스타일 지연시간의 대부분을 회복합니다.

실용적 함의

멀티모달 어시스턴트의 빠른 프로토타이핑 – 팀은 기존 LLM(예: LLaMA‑2)을 사용하고 몇 시간만에 파인튜닝하면, 개방형 생성에 더 안정적인(예: 환각 감소, 토큰 분포 부드러움) diffusion 기반 VLM을 얻을 수 있습니다.
비용 효율적인 학습 – 멀티모달 데이터의 일부만 필요하기 때문에, 스타트업과 연구실은 현재 diffusion VLM 연구를 지배하는 방대한 데이터 파이프라인 없이도 경쟁력 있는 VLM을 구축할 수 있습니다.
긴 출력에 대한 확장 가능한 생성 – 블록 디코딩은 보고서 생성, 코드 설명, 또는 다단계 추론과 같이 출력 길이가 수백 토큰에 달할 수 있는 작업에 diffusion을 실용적으로 만듭니다.
생성 비전 모델과의 더 나은 통합 – Diffusion VLM은 diffusion 이미지 생성기(예: Stable Diffusion)와 자연스럽게 정렬되어, 창의적 응용 분야에서 “이미지‑텍스트‑이미지” 루프를 긴밀히 연결할 수 있는 길을 엽니다.
오픈소스 기반 – 공개된 리포지토리는 플러그‑앤‑플레이 변환 스크립트를 제공하여, 개발자들이 자체 멀티모달 파이프라인에서 diffusion 디코딩을 실험하는 장벽을 낮춥니다.

제한 사항 및 향후 연구

Diffusion step budget – 블록 디코딩으로 속도가 빨라지긴 하지만, 확산은 여전히 블록당 여러 번의 디노이징 단계가 필요해 저전력 디바이스에서 병목이 될 수 있습니다.
Dependence on a strong AR backbone – 품질 상한은 원래 AR 모델에 의존합니다; 약한 AR VLM을 변환해도 강력한 dVLM이 자동으로 만들어지지는 않습니다.
Limited modality scope – 현재 연구는 시각‑언어에 초점을 맞추고 있으며, 번역 파이프라인을 오디오, 비디오, 3‑D 데이터로 확장하는 것은 아직 해결되지 않은 과제입니다.
Evaluation on downstream tasks – 벤치마크 점수는 인상적이지만, 실제 사용자 연구(예: 챗 어시스턴트, 코드 어시스턴트)가 필요해 인지된 품질 향상을 확인해야 합니다.

향후 연구 방향으로는 추론 시간을 더욱 줄이기 위한 적응형 확산 스케줄, 시각 및 텍스트 스트림을 동시에 디노이징하는 멀티모달 확산 파이프라인, 그리고 데이터 요구량을 더욱 감소시키기 위한 커리큘럼 파인튜닝 탐색이 포함됩니다.

저자

Lunbin Zeng
Jingfeng Yao
Bencheng Liao
Hongyuan Tao
Wenyu Liu
Xinggang Wang

논문 정보

arXiv ID: 2512.15713v1
분류: cs.CV
출판일: 2025년 12월 17일
PDF: PDF 다운로드

[Paper] DiffusionVL: 모든 자동회귀 모델을 Diffusion Vision Language 모델로 변환

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 시맨틱과 재구성 모두 중요: 텍스트-투-이미지 생성 및 편집을 위해 표현 인코더 준비하기

[Paper] Re-Depth Anything: 테스트 시 자기지도 재조명을 통한 깊이 정제

[Paper] 정교한 World Models

[Paper] Open Foundation Models에서 Vision의 적대적 견고성