구글의 DiffusionGemma가 다른 Gemma 모델보다 4배 빠르다
출처: The New Stack
약 1년 전, 구글은 I/O 개발자 컨퍼런스에서 확산 모델을 시연했지만, 이후 이 기술에 대해 조용히 있었습니다.
그런데 수요일, 구글은 그 침묵을 깨고 DiffusionGemma를 출시했습니다. 이는 실험적인 26B 규모의 mixture‑of‑experts 모델로, 기존 Gemma 모델보다 텍스트를 4배 빠르게 생성합니다.
확산은 이미지 생성(예: Stable Diffusion)의 표준이었습니다. DiffusionGemma나 Inception의 Mercury 2와 같은 모델은 한 번에 하나의 단어를 생성하는 대신, 여러 단어를 병렬로 생성합니다.
처음에는 이러한 텍스트 블록이 의미 없고 무작위처럼 보입니다. 하지만 매 단계마다 모델이 텍스트를 정제하고 노이즈를 줄여가며, 결국 여러분이 찾던 답을 만들어냅니다. 실시간으로 이미지를 생성하는 확산 이미지 모델을 본 적이 있다면, 텍스트에 적용된 동일한 과정이라고 생각하면 됩니다.
출처: Google
각 단계마다 모델은 256개의 토큰을 병렬로 디노이징합니다. 그래서 전통적인 자기회귀 대형 언어 모델보다 훨씬 빠를 수 있습니다. 모델은 텍스트를 여러 번 반복하면서 점점 다듬어 나갑니다.
모든 토큰이 서로를 주시하기 때문에, 구글은 인라인 편집, 코드 자동완성, 아미노산 서열 작업, 수학 그래프 등과 같은 사용 사례에 특히 유용하다고 말합니다.
출처: Google
구글에 따르면 DiffusionGemma는 단일 Nvidia H100에서 초당 1,000개 이상의 토큰을 생성할 수 있습니다. 또한 모델이 mixture‑of‑experts 기법을 사용하기 때문에 전체 260억 파라미터를 메모리에 모두 올려둘 필요가 없으며, 추론 시에는 38억 파라미터만 활성화됩니다. 따라서 18GB VRAM을 가진 GPU에서도 손쉽게 실행할 수 있습니다.
하지만 몇 가지 트레이드오프가 있습니다. 모든 벤치마크에서 DiffusionGemma 모델은 Gemma 4 26B A4B에 비해 성능이 낮습니다. 이는 구글 자체도 인정하고 있는 부분입니다. 확산 모델이 전통적인 대형 언어 모델만큼 성능을 낼 수 없다는 기술적인 이유는 없지만, 여기서는 속도에 초점을 맞추었습니다.
“최고 품질이 요구되는 애플리케이션에는 표준 Gemma 4를 배포하는 것을 권장합니다.”라고 구글은 발표에서 밝혔습니다.
출처: Google
Availability
이 모델은 현재 HuggingFace에서 사용할 수 있으며, 로컬에서 실행하고 싶은 사용자를 위해 Unsloth 및 기타 양자화 버전이 제공됩니다. 로컬 추론 도구인 llama.cpp와 (곧) 유사한 툴에서도 실행할 수 있습니다.
구글은 또한 Nvidia와 협력해 모델을 고성능 GPU(GeForce RTX 5090, RTX 4090)와 Nvidia DGX Spark, DGX Station 등에 최적화했습니다(가격을 감당할 수 있는 경우). Nvidia NIM도 해당 모델에 대해 제공됩니다.
TRENDING STORIES
YOUTUBE.COM/THENEWSTACK
기술은 빠르게 변합니다. 에피소드를 놓치지 마세요. 우리 YouTube 채널을 구독하고 모든 팟캐스트, 인터뷰, 데모 등을 시청하세요.
[구독하기]
Group
Created with Sketch.