구글 DiffusionGemma, 256 토큰을 병렬로 생성하며 진행 중 자체 교정.

발행: (2026년 6월 12일 AM 12:16 GMT+9)
12 분 소요

출처: VentureBeat

GenAI 이미지 생성기인 Stable Diffusion은 왼쪽에서 오른쪽으로 픽셀을 하나씩 그리는 방식이 아닙니다. 노이즈에서 시작해 전체 이미지를 동시에 반복적으로 정제하면서 수렴할 때까지 진행하는 diffusion 방식을 사용합니다. 수년간 이와 동일한 원리를 텍스트 생성에 적용하는 것은 대규모에서는 불가능에 가까웠습니다.

표준 언어 모델은 타자기처럼 작동합니다: 한 번에 하나의 토큰을, 왼쪽에서 오른쪽으로, 한 번 출력한 토큰을 수정할 수 없습니다. 이 패턴은 배치 크기가 커서 GPU를 지속적으로 사용하게 되는 클라우드 환경에서는 잘 맞지만, 로컬 추론이나 낮은 동시성 배포에서는 GPU가 대부분 유휴 상태가 됩니다.

Google이 이번 주에 공개한 DiffusionGemma는 오픈 소스 실험 모델로, diffusion 방식을 텍스트 생성에 적용해 생산 규모에서 동작합니다. Gemma 4 백본을 기반으로 Apache 2.0 라이선스로 공개되었으며, 오픈 소스 vLLM 추론 플랫폼에서 네이티브로 지원되는 최초의 diffusion 언어 모델입니다. 토큰을 순차적으로 생성하는 대신 256‑토큰 블록을 한 번에 병렬 생성하며, 각 토큰 위치가 서로를 모두 주시합니다. Google에 따르면 DiffusionGemma는 GPU에서 표준 모델보다 최대 4배 빠르게 텍스트를 생성합니다. 배치 크기 1, Nvidia H100 하나에서 FP8 버전은 초당 1,008 토큰을 달성했으며, H200에서는 1,288 토큰에 이르러 vLLM이 오늘 발표한 벤치마크 결과에 따르면 표준 자동회귀 모델보다 약 6배 빠른 성능을 보였습니다.

속도 향상에도 불구하고 Google은 과장하지 않았습니다. 출시 포스트에서는 DiffusionGemma의 전체 출력 품질이 표준 Gemma 4보다 낮다는 점을 직접 인정하며, “최고 품질이 요구되는 애플리케이션에는 표준 Gemma 4를 배포하는 것을 권장합니다.”라고 덧붙였습니다.

DiffusionGemma가 하는 일

DiffusionGemma는 토큰을 순서대로 생성하지 않습니다. 256개의 무작위 자리표시자 토큰 블록(사실상 빈 캔버스)으로 시작해 전체 블록을 한 번에 여러 차례 정제합니다. 각 정제 단계에서 모든 위치를 평가하고 가장 확신이 서는 토큰을 고정합니다. 확신이 낮은 위치는 무작위화되어 다음 단계에서 다시 고려되며, 모델은 이전 라운드에서 해결된 정보를 다음 시도에 활용합니다. 블록은 충분히 많은 위치가 안정화될 때까지 점진적으로 수렴하고, 남은 토큰들을 고정합니다.

이 아키텍처에서 파생되는 두 가지 특징은 다음과 같습니다.

  • 자기 교정
    자동회귀 모델은 잘못된 토큰을 한 번 출력하면 이후 토큰들이 그 오류에 조건화되기 때문에 수정이 불가능합니다. DiffusionGemma는 신뢰도가 낮은 위치를 식별해 다음 정제 단계에서 재평가할 수 있습니다.

  • 양방향 컨텍스트
    블록 내 모든 위치가 동시에 서로를 주시하므로, 시퀀스 후반에 등장하는 토큰까지도 즉시 고려됩니다. 이는 왼쪽‑오른쪽 순차 생성이 실패하는 제약된 생성 작업에 구조적으로 더 적합합니다.

Google은 파인튜닝된 스도쿠 솔버를 통해 두 특성을 시연했습니다. 기본 모델은 퍼즐을 전혀 풀지 못했지만, 스도쿠 데이터셋으로 파인튜닝한 뒤에는 80% 성공률을 달성했으며, 48단계 대신 12단계의 디노이징으로 수렴했습니다. 효율성 향상은 모델이 자기 교정하고 조기에 멈출 수 있는 능력에서 직접 비롯되었습니다.

구축 과정

DiffusionGemma는 추론 시 3.8 B 파라미터만 활성화되는 26 B Mixture‑of‑Experts(MoE) 모델로 동작합니다. 양자화된 상태에서는 Nvidia RTX 4090·5090 등 소비자용 GPU에서도 18 GB VRAM 안에 들어갑니다. Google과 NVIDIA는 또한 엔터프라이즈 Hopper·Blackwell 서버용 NVFP4 커널을 최적화했습니다.

vLLM 통합에는 새로운 작업이 필요했습니다. DiffusionGemma는 표준 서빙 모델과 맞지 않기 때문입니다. 일반적인 vLLM 배치는 모든 요청에 동일한 어텐션 타입을 적용하지만, DiffusionGemma는 프롬프트 읽기, 캔버스 정제, 블록 커밋 단계마다 인과적 어텐션과 양방향 어텐션을 교차합니다. 팀은 Triton과 FlashAttention 4 백엔드 모두에 요청별 어텐션 전환 로직을 구현하고, 기존의 speculative decoding 경로를 정제 루프에 재활용했습니다.

이 통합을 위해 만든 새로운 ModelState 인터페이스는 향후 vLLM에 등장할 추가 diffusion 모델들을 지원하도록 설계되었습니다.

속도가 빛나는 경우와 그렇지 않은 경우

DiffusionGemma의 속도 이점은 실제이지만 조건부입니다. 적용 여부는 전적으로 배포 환경에 달려 있습니다.

수치

  • 배치 크기 1, H100 하나 기준 FP8 모델은 표준 자동회귀 베이스라인 대비 약 5배 빠릅니다.
  • H200에서는 약 6배 빠른 것으로 보고되었습니다.
    이 피크 수치는 단일 사용자, 전용 하드웨어, FP8 양자화 등 최적 조건을 전제로 합니다.

속도가 유리한 상황

  • 로컬 추론, 단일 사용자 애플리케이션, 낮은 동시성 서빙
    이 경우 GPU는 여유 연산력을 가지고 있으며 메모리 대역폭이 병목이 됩니다. DiffusionGemma의 병렬 블록 생성이 그 빈틈을 메워줍니다.

속도가 제한되는 상황

  • 고처리량 클라우드 서빙
    서버가 수백 개의 동시 요청을 배치하면 자동회귀 모델만으로도 연산 자원을 포화시키므로, DiffusionGemma의 병렬 디코딩은 수익 감소 효과를 보입니다.

품질 한계

AI 연구원 Guilherme O’Tina는 X에 다음과 같이 짧게 정리했습니다.

“로컬 아티팩트와 환각은 서로 다른 문제이며, 이것이 실제로 어느 상황에서 승리할지를 결정합니다.”

비교

Diffusion 언어 모델 자체는 새로운 것이 아닙니다. 연구자들은 수년간 소규모로 이를 구현해 왔으며, Inception Labs의 Mercury Coder는 2025년에 코딩 작업에 상용화했습니다. DiffusionGemma가 추가한 점은 규모—26 B MoE 백본, vLLM 네이티브 서빙, 그리고 특정 도메인이 아닌 일반 목적의 instruction‑tuned 모델이라는 점입니다.

엔지니어가 기존 추론 툴링과 비교할 때 가장 유용한 기준은 speculative decoding과의 차이입니다. speculative decoding은 표준 자동회귀 타깃 모델을 유지하면서 작은 초안 모델이 여러 토큰을 미리 예측하고, 타깃 모델이 한 번에 이를 검증합니다. 샘플링이 정확하면 출력 분포는 타깃 모델과 동일하게 유지됩니다. 구조는 변하지 않습니다.

ML·AI 연구자 Andrew Kuncevich는 X에 이렇게 적었습니다.

“DiffusionGemma는 다릅니다. 미래 토큰을 추측하는 것이 아니라 256‑토큰의 노이즈 캔버스를 만들고 전체 블록을 병렬로 반복 디노이징합니다. 따라서 단순한 디코딩 트릭이 아니라 전혀 다른 생성 패러다임입니다.”

표준 Gemma 4와 비교했을 때는 속도 ↔ 품질의 트레이드오프가 존재합니다. Google 벤치마크에 따르면 DiffusionGemma는 일반 출력 품질 지표에서 표준 Gemma 4보다 낮으며, 그 격차는 작업에 따라 달라집니다.

구조적으로 제약된 작업(코드 인필링, 템플릿 생성, 양방향 제약 전파가 필요한 문제)에서는 아키텍처가 갖는 장점이 파인튜닝을 통해 드러납니다. 스도쿠 실험이 이를 입증합니다. 반면 자유형 생성에서는 표준 Gemma 4가 여전히 강력한 선택입니다.

기업에 미치는 의미

DiffusionGemma는 diffusion 전용 파이프라인 변경 없이 표준 vLLM OpenAI 호환 엔드포인트를 통해 제공됩니다.

  • 일반 목적 모델 업그레이드가 아니다.
  • 로컬 또는 낮은 동시성 추론을 운영하는 팀에게는 아키텍처 선택지가 하나 더 늘어났습니다. 기존에는 전용 GPU에서 지연 시간을 줄이려면 모델을 축소하고 품질을 포기해야 했지만, DiffusionGemma는 동일 파라미터 규모·소비자 하드웨어·
0 조회
Back to Blog

관련 글

더 보기 »