Google의 최신 트릭, Gemma 4를 휴대폰에서 바로 3배 빠르게 구동
Source: Android Authority

TL;DR
- 구글은 “드래프터(drafters)”라 불리는 새로운 어시스턴트 모델을 도입했으며, 이는 Gemma 4의 속도를 크게 높일 수 있습니다.
- 드래프터는 메인 모델에 전달될 프롬프트의 일부 섹션을 미리 예측함으로써, 메인 모델이 더 큰 배치로 처리하도록 돕습니다.
- 이를 통해 모델이 메모리와 연산 자원을 보다 효율적으로 사용할 수 있습니다.
구글이 최근에 출시한 Gemma 4 엣지 AI 모델은 소비자 기기에서 로컬로 실행되도록 설계되었습니다. 프라이버시 측면에서는 장점이 있지만, 로컬 모델은 자원을 많이 차지해 결과가 느려지는 문제가 있어 실용성이 떨어질 수 있습니다. 그래서 구글은 Gemma 4 모델을 최대 3배까지 가속화할 수 있다고 주장하는 잠재적 해결책을 제시했습니다.
구글은 최근 Gemma 4용 Multi‑Token Prediction (MTP) 드래프터를 출시했습니다. 이 드래프터는 기본 모델을 보조하는 작은 모델로, 사용자의 요청 일부를 “예측”합니다. 이러한 작은 모델은 메인 모델과 병렬로 작동해 연산을 보다 효율적으로 관리합니다.
MTP가 Gemma 4를 어떻게 개선하나요?
이 과정은 “Speculative Decoding”이라는 기법을 사용합니다. 드래프터 모델이 메인 Gemma 모델이 프롬프트를 모두 읽기 전에 다음에 올 단어들을 미리 예측하는 방식입니다. 드래프터가 다음 단어 시퀀스로 넘어가는 동안, 메인 모델은 동시에 예측된 단어 집합을 검증합니다.
- 모델이 드래프트된 버전을 받아들이면, 다음 세트를 검증하기 위해 진행합니다.
- 모델이 동의하지 않으면, 잘못된 단어나 청크를 교체합니다.
추가 작업이 역설적으로 들릴 수 있지만, 실제로는 그렇지 않습니다. MTP가 작동하는 이유를 과도하게 단순화하면 다음과 같습니다:
- 처리 속도는 단순히 하드웨어(보통 GPU 코어)만이 아니라 메모리 대역폭(VRAM)에 크게 좌우됩니다.
- 모델은 새로운 요청마다 참조되어야 하므로, 여러 단어를 하나의 청크로 합치면 모델을 한 번만 참조하면 됩니다. 이는 메모리 부담을 줄이고 연산 유닛으로 부하를 전환합니다.
이와 같은 변화 외에도 구글은 Apple Silicon이나 인기 있는 Nvidia A100과 같은 특정 하드웨어에 맞춰 다양한 무게(weight)의 Gemma 4 모델을 최적화하고 있다고 밝혔습니다.
Gemma 4용 MTP 드래프터와 기본 모델은 Hugging Face, Kaggle 같은 플랫폼이나 Ollama와 같은 도구, 혹은 Android 및 iOS에서 구글 자체 AI Edge Gallery를 통해 접근할 수 있습니다.