Google의 최신 트릭, Gemma 4를 휴대폰에서 바로 3배 빠르게 구동

발행: 1일 전 (2026년 5월 6일 PM 06:10 GMT+9)

4 분 소요

Source: Android Authority

TL;DR

구글은 “드래프터(drafters)”라 불리는 새로운 어시스턴트 모델을 도입했으며, 이는 Gemma 4의 속도를 크게 높일 수 있습니다.
드래프터는 메인 모델에 전달될 프롬프트의 일부 섹션을 미리 예측함으로써, 메인 모델이 더 큰 배치로 처리하도록 돕습니다.
이를 통해 모델이 메모리와 연산 자원을 보다 효율적으로 사용할 수 있습니다.

구글이 최근에 출시한 Gemma 4 엣지 AI 모델은 소비자 기기에서 로컬로 실행되도록 설계되었습니다. 프라이버시 측면에서는 장점이 있지만, 로컬 모델은 자원을 많이 차지해 결과가 느려지는 문제가 있어 실용성이 떨어질 수 있습니다. 그래서 구글은 Gemma 4 모델을 최대 3배까지 가속화할 수 있다고 주장하는 잠재적 해결책을 제시했습니다.

구글은 최근 Gemma 4용 Multi‑Token Prediction (MTP) 드래프터를 출시했습니다. 이 드래프터는 기본 모델을 보조하는 작은 모델로, 사용자의 요청 일부를 “예측”합니다. 이러한 작은 모델은 메인 모델과 병렬로 작동해 연산을 보다 효율적으로 관리합니다.

MTP가 Gemma 4를 어떻게 개선하나요?

이 과정은 “Speculative Decoding”이라는 기법을 사용합니다. 드래프터 모델이 메인 Gemma 모델이 프롬프트를 모두 읽기 전에 다음에 올 단어들을 미리 예측하는 방식입니다. 드래프터가 다음 단어 시퀀스로 넘어가는 동안, 메인 모델은 동시에 예측된 단어 집합을 검증합니다.

모델이 드래프트된 버전을 받아들이면, 다음 세트를 검증하기 위해 진행합니다.
모델이 동의하지 않으면, 잘못된 단어나 청크를 교체합니다.

추가 작업이 역설적으로 들릴 수 있지만, 실제로는 그렇지 않습니다. MTP가 작동하는 이유를 과도하게 단순화하면 다음과 같습니다:

처리 속도는 단순히 하드웨어(보통 GPU 코어)만이 아니라 메모리 대역폭(VRAM)에 크게 좌우됩니다.
모델은 새로운 요청마다 참조되어야 하므로, 여러 단어를 하나의 청크로 합치면 모델을 한 번만 참조하면 됩니다. 이는 메모리 부담을 줄이고 연산 유닛으로 부하를 전환합니다.

이와 같은 변화 외에도 구글은 Apple Silicon이나 인기 있는 Nvidia A100과 같은 특정 하드웨어에 맞춰 다양한 무게(weight)의 Gemma 4 모델을 최적화하고 있다고 밝혔습니다.

Gemma 4용 MTP 드래프터와 기본 모델은 Hugging Face, Kaggle 같은 플랫폼이나 Ollama와 같은 도구, 혹은 Android 및 iOS에서 구글 자체 AI Edge Gallery를 통해 접근할 수 있습니다.

Google의 최신 트릭, Gemma 4를 휴대폰에서 바로 3배 빠르게 구동

TL;DR

MTP가 Gemma 4를 어떻게 개선하나요?

관련 글

Google, Project Mariner 종료

연구: 기업은 종종 자동화를 이용해 특정 근로자들의 임금을 통제한다

AI를 통한 선

Gemini CLI에 Subagents가 도입되었습니다

TL;DR

MTP가 Gemma 4를 어떻게 개선하나요?

관련 글

Google, Project Mariner 종료

연구: 기업은 종종 자동화를 이용해 특정 근로자들의 임금을 통제한다

AI를 통한 선

Gemini CLI에 Subagents가 도입되었습니다

MTP가 Gemma 4를 어떻게 개선하나요?