최신 Gemma 4 모델, 훈련 기법으로 디바이스 메모리 사용량 크게 감소

발행: (2026년 6월 6일 AM 05:31 GMT+9)
5 분 소요

출처: Android Authority

TL;DR

  • 이제 Gemma 4 모델을 양자화 인식 학습(QAT) 버전으로 다운로드할 수 있으며, 이를 통해 모델 크기와 메모리 사용량을 줄일 수 있습니다.
  • QAT를 적용한 오픈소스 모델은 사후 양자화(PTQ) 모델에 비해 품질을 더 잘 유지합니다.
  • QAT 최적화된 Gemma 4 모델은 다섯 가지 크기로 제공됩니다: Gemma 4 E2B, Gemma 4 E4B, Gemma 4 12B, Gemma 4 26B A4B, 그리고 Gemma 4 31B.

이번 주 초에 **Google이 노트북용 Gemma 4 12B 모델을 출시**한 뒤, Google은 양자화 인식 학습(QAT)으로 훈련된 새로운 Gemma 4 체크포인트를 공개했습니다. 양자화는 경량 모델을 실행하는 데 필요한 메모리를 줄이기 위해 필수적인 과정입니다. 일반적인 방법은 훈련이 끝난 뒤 모델을 양자화하는 사후 양자화(PTQ)인데, 이 경우 성능 저하가 발생할 수 있습니다. 최신 Gemma 4 버전은 **Google 블로그**에 따르면, 모델 품질 손실을 최소화하고 디코드 속도를 높이기 위해 QAT를 사용합니다.

Google은 양자화를 훈련 과정에 포함시키면 PTQ로 다듬은 모델보다 성능이 뛰어난 체크포인트를 만들 수 있다고 밝혔습니다. 압축된 모델은 맞춤형 모바일 양자화 스키마 덕분에 스마트폰과 노트북에서 원활히 동작합니다. 이 스키마는 미리 계산된 설정, 모델 일부에 대한 2비트 압축, 어휘 목록 및 단기 메모리 압축 등을 활용합니다. 결과적으로 사용자는 시스템 메모리를 적게 차지하는 더 작은 모델을 얻게 됩니다.

QAT 최적화가 적용된 모델은 여러 크기로 제공되며, 여기에는 Gemma 4 E2B, Gemma 4 E4B, Gemma 4 12B, Gemma 4 26B A4B, 그리고 Gemma 4 31B가 포함됩니다. 가장 작은 버전인 **텍스트 전용 Gemma 4 E2B 모델**은 실행에 1GB 미만의 메모리만 필요합니다. 이러한 작은 Gemma 4 체크포인트는 리소스 요구량이 낮아 스마트폰에서도 이상적으로 작동합니다.

Google은 QAT가 적용된 다양한 크기의 Gemma 4 모델을 로드하는 데 필요한 대략적인 메모리 요구량을 공개했습니다:

Gemma 4 QAT 모델은 네 가지 형식으로 다운로드할 수 있습니다: 양자화되지 않은 QAT 체크포인트, GPT‑Generated Unified Format(GGUF), 모바일 최적화 버전, 그리고 압축 텐서(Compressed Tensors). Google에 따르면 이 모델들은 “bfloat16과 유사한 품질을 유지하면서 모델 로드에 필요한 메모리를 크게 줄인다”고 합니다.

Gemma 4 QAT 모델 가중치를 다운로드한 뒤, 사용자는 스마트폰, 노트북 또는 데스크톱에서 체크포인트를 실행할 수 있습니다. 모바일용 모델은 **Hugging Face 모바일 컬렉션**에서, 데스크톱용 모델은 **Hugging Face 데스크톱 컬렉션**에서 찾을 수 있으며, **LM Studio**에서도 이용 가능합니다.

Follow

우리 커뮤니티에 함께해 주셔서 감사합니다. 게시하기 전에 **댓글 정책**을 읽어 주세요.

0 조회
Back to Blog

관련 글

더 보기 »