DiffusionGemma: 텍스트 생성 4배 빠름
출처: Hacker News
Jun 10, 2026
우리의 최신 공개 실험 모델은 전용 GPU에서 최대 4배 빠른 추론을 제공하며, 속도가 중요한 인터랙티브 로컬 워크플로를 탐색할 수 있는 문을 엽니다.
Brendan O’Donoghue
연구 과학자
Sebastian Flennerhag
연구 과학자

오늘 우리는 DiffusionGemma를 소개합니다. 텍스트 확산을 탐구하는 실험적인 공개 모델로, 텍스트 생성에 있어 매우 빠른 접근 방식을 제공합니다. Apache 2.0 라이선스로 공개된 이 26B 규모의 Mixture of Experts(MoE) 모델은 전통적인 자동회귀 대형 언어 모델(LLM)의 토큰‑별 순차 처리 방식을 넘어섭니다. 대신 텍스트 블록 전체를 동시에 생성하여 GPU에서 최대 4배 빠른 텍스트 생성을 구현합니다.

Gemma 4 시리즈의 업계 최고 수준 파라미터당 지능과 최첨단 Gemini Diffusion 연구를 기반으로, DiffusionGemma는 생성 속도를 극대화하도록 설계된 새로운 확산 헤드를 통합했습니다. 자동회귀 Gemma 4 모델은 여전히 고품질 생산 출력의 표준이지만, DiffusionGemma는 인라인 편집, 빠른 반복, 비선형 텍스트 구조 생성 등 속도가 중요한 인터랙티브 로컬 워크플로를 탐구하는 연구자와 개발자를 위해 설계되었습니다.
개발자를 위한 새로운 가치 창출
실시간 인터랙티브 AI 애플리케이션을 구축하는 개발자는 로컬 추론 시 지연(latency) 병목 현상에 자주 직면합니다. DiffusionGemma는 이러한 문제를 직접 해결하며, 몇 가지 핵심 트레이드오프를 제공합니다.
번개 같은 빠른 추론: 디코드 병목을 메모리 대역폭에서 연산으로 전환함으로써, DiffusionGemma는 전용 GPU에서 토큰 출력 속도를 최대 4배 가속합니다. (단일 NVIDIA H100 기준 초당 1,000+ 토큰, NVIDIA GeForce RTX 5090 기준 초당 700+ 토큰).
- 접근성 높은 하드웨어 요구량: 전체 26B MoE 모델이지만 추론 시에는 3.8B 파라미터만 활성화되므로, 양자화된 상태에서 고급 소비자용 GPU의 18GB VRAM 한도 안에 편안히 들어갑니다.
- 양방향 어텐션: 각 포워드 패스에서 256 토큰을 병렬로 생성하므로 모든 토큰이 서로를 참조할 수 있습니다. 이는 인라인 편집, 코드 보완, 아미노산 서열, 수학 그래프 등 비선형 도메인에 큰 이점을 제공합니다.
- 지능형 자체 교정: 모델이 자체 출력을 반복적으로 다듬어 전체 텍스트 블록을 한 번에 평가하고 실시간으로 오류를 수정합니다.
- 실험적 상태 및 생산 환경 권고: 속도와 병렬 레이아웃 생성을 우선시하기 때문에 DiffusionGemma의 전체 출력 품질은 표준 Gemma 4보다 낮습니다. 최고 품질이 요구되는 애플리케이션에는 표준 Gemma 4 사용을 권장합니다.

특정 작업에 대한 DiffusionGemma의 성능은 파인튜닝을 통해 향상시킬 수 있습니다. 아래 예시에서는 Unsloth이 DiffusionGemma를 파인튜닝해 스도쿠를 풀도록 했습니다—자동회귀 모델이 미래 토큰에 의존하기 때문에 어려워하는 작업이지만, DiffusionGemma의 양방향 어텐션 덕분에 훨씬 수월합니다.
파인튜닝된 DiffusionGemma가 스도쿠를 풉니다.

왜 텍스트에 확산을 쓰나요?
AI 연구 커뮤니티는 수년간 확산 기반 텍스트 생성에 대해 탐구해 왔지만, 이를 대규모 모델에 적용하는 것은 여전히 어려웠습니다. DiffusionGemma는 모델이 하드웨어를 활용하는 방식을 바꾸어 이 문제를 해결합니다.
전통 모델과의 트레이드오프
대부분의 언어 모델은 타자기처럼 왼쪽에서 오른쪽으로 한 토큰씩 생성합니다. 클라우드 환경에서는 서버가 수천 개의 사용자 요청을 배치 처리해 하드웨어 부하를 공유하기 때문에 효율적입니다. 그러나 단일 사용자를 위한 로컬 실행에서는 이 단어‑별 프로세스 때문에 전용 GPU나 TPU가 대부분 대기 상태에 머무르게 됩니다—다음 “키 입력”을 기다리는 시간이 대부분을 차지합니다.
DiffusionGemma는 이러한 비효율성을 뒤집습니다. 단어를 순차적으로 예측하는 대신, 256 토큰 길이의 전체 문단을 한 번에 초안으로 작성합니다. 한 번에 더 큰 작업 청크를 컴퓨터 프로세서에 제공함으로써, DiffusionGemma는 하드웨어를 최대한 활용합니다. 이는 모델 추론을 단일, 순차적인 타자기에서 전체 텍스트 블록을 동시에 인쇄하는 대형 인쇄기로 업그레이드하는 것과 같습니다.

DiffusionGemma 텍스트‑to‑3D SVG 데모 (Hugging Face). 단계별 생성.
이러한 특성 때문에 DiffusionGemma의 속도 향상은 로컬 및 낮은 동시성 추론에 최적화되어 있습니다. 고 QPS 클라우드 서빙에서는 자동회귀 모델이 연산을 효율적으로 포화시킬 수 있어, DiffusionGemma의 병렬 디코딩이 수익 감소와 높은 서빙 비용을 초래할 수 있습니다. 처리량 이점은 단일 가속기에서 낮은‑중간 배치 크기일 때 가장 크게 나타납니다.
텍스트 확산이 작동하는 방식
시각적 정적 이미지에서 시작해 점진적으로 선명한 그림으로 다듬어 가는 AI 이미지 생성기와 유사하게, DiffusionGemma는 텍스트에 동일한 방식을 적용합니다.
- 캔버스: 모델은 무작위 자리표시자 토큰으로 구성된 캔버스로 시작합니다.
- 반복적 정제: 여러 번의 패스를 수행하면서 올바른 토큰을 고정하고, 이를 컨텍스트 단서로 활용해 나머지를 정제합니다.
- 최종 다듬기: 텍스트가 고품질 출력으로 수렴합니다.
전체 문단을 한 번에 처리하면서 생성할 수 있기 때문에, 복잡한 마크다운 포맷을 완벽히 닫거나 코드를 거의 실시간에 가깝게 생성·렌더링하는 등 새로운 모델 행동 패턴이 열립니다.
오늘 바로 시작하기
- 가중치 다운로드: 현재 Hugging Face에서 실험 모델 가중치(허용적인 Apache 2.0 라이선스)를 바로 받을 수 있습니다.