Google의 최신 트릭, Gemma 4를 휴대폰에서 바로 3배 빠르게 구동

발행: (2026년 5월 6일 PM 06:10 GMT+9)
4 분 소요

Source: Android Authority

TL;DR

  • 구글은 “드래프터(drafters)”라 불리는 새로운 어시스턴트 모델을 도입했으며, 이는 Gemma 4의 속도를 크게 높일 수 있습니다.
  • 드래프터는 메인 모델에 전달될 프롬프트의 일부 섹션을 미리 예측함으로써, 메인 모델이 더 큰 배치로 처리하도록 돕습니다.
  • 이를 통해 모델이 메모리와 연산 자원을 보다 효율적으로 사용할 수 있습니다.

구글이 최근에 출시한 Gemma 4 엣지 AI 모델은 소비자 기기에서 로컬로 실행되도록 설계되었습니다. 프라이버시 측면에서는 장점이 있지만, 로컬 모델은 자원을 많이 차지해 결과가 느려지는 문제가 있어 실용성이 떨어질 수 있습니다. 그래서 구글은 Gemma 4 모델을 최대 3배까지 가속화할 수 있다고 주장하는 잠재적 해결책을 제시했습니다.

구글은 최근 Gemma 4용 Multi‑Token Prediction (MTP) 드래프터를 출시했습니다. 이 드래프터는 기본 모델을 보조하는 작은 모델로, 사용자의 요청 일부를 “예측”합니다. 이러한 작은 모델은 메인 모델과 병렬로 작동해 연산을 보다 효율적으로 관리합니다.

MTP가 Gemma 4를 어떻게 개선하나요?

이 과정은 “Speculative Decoding”이라는 기법을 사용합니다. 드래프터 모델이 메인 Gemma 모델이 프롬프트를 모두 읽기 전에 다음에 올 단어들을 미리 예측하는 방식입니다. 드래프터가 다음 단어 시퀀스로 넘어가는 동안, 메인 모델은 동시에 예측된 단어 집합을 검증합니다.

  • 모델이 드래프트된 버전을 받아들이면, 다음 세트를 검증하기 위해 진행합니다.
  • 모델이 동의하지 않으면, 잘못된 단어나 청크를 교체합니다.

추가 작업이 역설적으로 들릴 수 있지만, 실제로는 그렇지 않습니다. MTP가 작동하는 이유를 과도하게 단순화하면 다음과 같습니다:

  • 처리 속도는 단순히 하드웨어(보통 GPU 코어)만이 아니라 메모리 대역폭(VRAM)에 크게 좌우됩니다.
  • 모델은 새로운 요청마다 참조되어야 하므로, 여러 단어를 하나의 청크로 합치면 모델을 한 번만 참조하면 됩니다. 이는 메모리 부담을 줄이고 연산 유닛으로 부하를 전환합니다.

이와 같은 변화 외에도 구글은 Apple Silicon이나 인기 있는 Nvidia A100과 같은 특정 하드웨어에 맞춰 다양한 무게(weight)의 Gemma 4 모델을 최적화하고 있다고 밝혔습니다.

Gemma 4용 MTP 드래프터와 기본 모델은 Hugging Face, Kaggle 같은 플랫폼이나 Ollama와 같은 도구, 혹은 Android 및 iOS에서 구글 자체 AI Edge Gallery를 통해 접근할 수 있습니다.

0 조회
Back to Blog

관련 글

더 보기 »

Google, Project Mariner 종료

Google는 웹 전반에 걸쳐 작업을 수행하도록 설계된 실험적 기능인 Project Mariner를 중단했습니다. 이는 Wired의 Maxwell가 이전에 보도한 바와 같습니다.

AI를 통한 선

!AI for good 표지 이미지https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazona...

Gemini CLI에 Subagents가 도입되었습니다

2026년 4월 15일 — 서브에이전트는 Gemini CLI가 복잡하고 반복적이거나 대량의 작업을 전문화된 전문가 에이전트에 위임할 수 있게 합니다. 각 서브에이전트는 자신의…