구글 Gemma 4 12B, 26B 벤치마크에 근접 — 노트북에서도 실행 가능

발행: 6일 전 (2026년 6월 5일 AM 04:30 GMT+9)

8 분 소요

출처: The New Stack

Google은 고성능·다중모달 인텔리전스를 일반 노트북에 제공하도록 설계된 새로운 모델 Gemma 4 12B를 소개했습니다. 16 GB 정도의 VRAM 또는 통합 메모리만 있으면 로컬에서 실행할 수 있을 정도로 작아, 초기 커뮤니티 대화에서는 개발자들이 고성능을 로컬에서 구현한다는 아이디어에 큰 호응을 보이고 있습니다.

거의 Gemma 4 26B만큼 좋지만 훨씬 작다

크기가 중요합니다. 수요일에 공개된 Google 모델의 가장 눈에 띄는 점은, 회사 측에 따르면 Gemma 4 26B와 거의 동등한 성능을 내면서도 전체 메모리 사용량이 절반도 안 된다는 것입니다. 벤치마크를 살펴보면 12 B 모델이 26 B 모델과 맞먹는 성능을 보여주며, DocVQA(문서 시각 질문 응답)에서는 오히려 구형 모델을 앞서기도 합니다.

출처: Google

Gemma 4 26B 수준의 연산력을 일반 소비자용 노트북에서도 활용할 수 있게 되면, 거의 모든 사용자가 오프라인에서도 고급 다단계 추론 및 에이전트 워크플로를 실행할 수 있게 됩니다. 이전에는 Google의 더 강력하지만 무거운 Gemma 변종을 사용해야 했습니다.

2024년 4월에 Google은 최신 Gemma 4 시리즈 네 가지 모델을 출시했습니다. 당시 “지금까지 만든 가장 지능적인 오픈 모델”이라고 소개했죠. 이 라인업에는 개인용 컴퓨터용 모델(26 B와 31 B)과 모바일·IoT용 모델(E2 B와 E4 B)이 포함되었습니다.

이제 Gemma 4 12B는 그 중간에 위치해, E2 B·E4 B보다 더 많은 성능을 제공하면서도 26 B·31 B보다 가볍습니다.

주요 매력: 네이티브 오디오 입력

크기가 중요한 요소이지만 전부는 아닙니다. Gemma 4 12B가 개발자들의 눈길을 끄는 또 다른 이유는 통합 아키텍처 덕분에 네이티브 오디오 입력을 지원한다는 점입니다. 이는 Google이 만든 최초의 중형 모델입니다.

기존 다중모달 모델(다른 Gemma 계열 포함)과 달리, Gemma 4 12B는 이미지와 오디오를 별도의 인코더로 변환하지 않습니다. Google이 출시 블로그에서 설명하듯, 새로운 모델은 이러한 입력을 **“LLM 백본에 직접 전달”**하여 인코딩 과정에서 발생하는 지연과 메모리 사용을 없앱니다.

구체적으로는,

이미지: 비전 인코더 대신 임베딩 모듈을 사용해 LLM 자체가 시각 처리를 담당합니다.
오디오: 오디오 인코더가 전혀 없으며, “원시 오디오 신호를 텍스트 토큰과 동일한 차원 공간에 투사”합니다.

지금까지는 괜찮다

Gemma 4 12B가 Reddit 개발자 커뮤니티에 처음 등장한 이후, 전반적으로 따뜻한 환영을 받고 있습니다.

r/LocalLLaMA에서는 한 사용자가 “오래도록 들은 모델 중 가장 흥미로운 모델”이라고 평했으며, 특히 통합 아키텍처에 주목해 “작은 모델이 아닌데 네이티브 오디오 지원을 제공한다는 점이 가장 흥미롭다”고 언급했습니다.

아직 충분히 테스트해볼 시간은 부족하지만, 기대감은 큽니다. “이 모델이 어느 정도라도 제대로 동작한다면, 활용할 수 있는 사례가 많이 있다”는 의견도 있었습니다.

잠재적인 단점으로는 Hacker News에서 한 댓글이 지적했듯 코딩 능력이 제한적일 수 있다는 점입니다. Google 발표에서는 전혀 언급되지 않았지만, “일반적인 코딩 성능은 Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B‑A3B, gpt‑oss‑20b 같은 다른 작은 모델에 비해 좋지 않을 가능성이 있다”고 추측했습니다.

다른 댓글도 동의하며 “Qwen이 코딩, 특히 Pi와 결합한 에이전트 코딩에 훨씬 뛰어나며, Gemma 계열은 로컬 LLM을 사용할 때 대부분의 다른 작업에 더 적합하다”고 덧붙였습니다.

미래는 로컬인가?

코딩 벤치마크에서 최고 점수를 받는 것이 목표는 아닌 듯합니다. 주목할 점은 Gemma 4 12B가 상당히 높은 성능을 유지하면서도 크기가 작다는 것입니다.

표준 컴퓨터에서 로컬로 실행할 수 있다는 사실은 개발자들이 고성능 인텔리전스를 위해 반드시 클라우드에 의존할 필요가 없다는 의미이며, 이는 장기적으로 비용 구조에 큰 영향을 미칠 수 있습니다. 한 Reddit 사용자는 “클라우드는 편리하지만 토큰당 비용을 영원히 지불해야 하고, 프롬프트가 다른 사람 서버를 통과한다. 로컬은 한 번 설정하면 사생활 보호, 지속 비용 제로”라고 말했습니다.

아마도 Google은 미래가 로컬이라고 생각하고 있는 듯합니다. 지난해 9월, Google은 Google AI Edge Gallery를 출시하면서 “오프라인 AI를 위한 가장 영감 넘치고 유용한 쇼케이스”가 되길 원한다는 입장을 밝혔습니다.

표준 소비자용 노트북에 거의 26 B 수준의 성능을 제공함으로써, Google은 온‑디바이스 AI에 대한 관심을 크게 높이고 있으며, 개발자들은 그 흐름을 환영하고 있습니다.

YOUTUBE.COM/THENEWSTACK

Tech moves fast, don’t miss an episode. Subscribe to our YouTube channel to stream all our podcasts, interviews, demos, and more.

SUBSCRIBE

Group
Created with Sketch.

구글 Gemma 4 12B, 26B 벤치마크에 근접 — 노트북에서도 실행 가능

거의 Gemma 4 26B만큼 좋지만 훨씬 작다

주요 매력: 네이티브 오디오 입력

지금까지는 괜찮다

미래는 로컬인가?

YOUTUBE.COM/THENEWSTACK

관련 글

AI가 만든 메모리 부족을 해결하는 방법

클로드 코드, 사상 최대 업그레이드로 5개 에이전트를 동시에 실행 — 그 결과는?

“위험한 조합”: AI 에이전트 워크플로를 ‘오염’시킬 두 요인

“위험한 조합”: AI 에이전트 워크플로를 ‘오염시킬’ 수 있는 두 요인

거의 Gemma 4 26B만큼 좋지만 훨씬 작다

주요 매력: 네이티브 오디오 입력

지금까지는 괜찮다

미래는 로컬인가?

TRENDING STORIES

YOUTUBE.COM/THENEWSTACK

관련 글

AI가 만든 메모리 부족을 해결하는 방법

클로드 코드, 사상 최대 업그레이드로 5개 에이전트를 동시에 실행 — 그 결과는?

“위험한 조합”: AI 에이전트 워크플로를 ‘오염’시킬 두 요인

“위험한 조합”: AI 에이전트 워크플로를 ‘오염시킬’ 수 있는 두 요인

거의 Gemma 4 26B만큼 좋지만 훨씬 작다