Gemma 4를 로컬에서 실행하는 가혹한 현실

발행: 2주 전 (2026년 5월 23일 PM 07:23 GMT+9)

8 분 소요

출처: Dev.to

이 글은 Google I/O 2026 Writing Challenge에 제출된 작품입니다.
“Google I/O 2026에서 Google는 구체적인 주장을 했습니다: Gemma 4는 클라우드 의존 없이 소비자용 노트북에서 실행된다고. 그들은 무대에서 오프라인 코딩을 시연했습니다. 일상적인 하드웨어에서 로컬 AI가 드디어 실용적이라고 말했죠.”

GPU와 고대역폭 메모리 가격이 현재는 정상적이지 않습니다. AI 기업들이 하드웨어를 대규모로 구매하면서 실제로 소비자 시장이 교란되고 있습니다. 로컬 AI에 적합한 PC를 구성하려면 3~4년 전보다 훨씬 더 많은 비용이 들며, 부품을 구할 수 있는지도 미지수입니다.

AI 하드웨어 광풍이 시작되기 전에 기계를 구입했다면, 대부분의 사람들보다 큰 레버리지를 가질 수 있습니다. 저는 4년 전 노트북을 샀습니다. RTX 3050에 4 GB VRAM은 현재 기준으로는 진지한 AI 카드라고 할 수 없지만, Google이 Gemma 4가 구동될 수 있다고 암시한 바로 그 하드웨어입니다. 경량 모델을 넘어선 일관된 로컬 추론을 위해서는 16 GB VRAM이 필요합니다. 저는 4 GB밖에 없으니, 실제 상황이 어떻게 보이는지 보여드리겠습니다.

Ollama를 설치하고 모델을 받아오면 가중치가 로드되고 커서가 깜빡입니다.
GPU가 바쁘게 움직이고, 팬이 울부짖으며, 모델이 VRAM에 전부 로드됩니다. 그리고 긴 컨텍스트 추론은 대부분의 데모가 보여주는 것보다 훨씬 빨리 속도가 떨어집니다.

Gemma 4에서는 E2B는 제 머신에 로드됐지만, E4B는 RAM을 확보하기 위해 다른 모든 작업을 종료해야 했습니다. 두 경우 모두 키노트가 암시한 대로 동작하지 않았습니다. 실제 처리량은 기대보다 더 복잡했습니다.

지속적인 장문 추론 벤치마크

RTX 3050 노트북 GPU (4 GB VRAM)

16 GB DDR5 RAM

Windows에서 Ollama

Gemma 4 E2B

eval rate: ~38.68 tok/s

Gemma 4 E4B

eval rate: ~24.39 tok/s

동일한 프롬프트.

동일한 하드웨어.

동일한 런타임.

E2B는 놀라울 정도로 사용 가능했습니다.

E4B는 메모리 한계에 훨씬 더 가까워졌습니다.

속도 저하가 치명적이진 않았습니다. 바로 그 점이 흥미로웠습니다. E2B는 이 워크로드에서 대부분 GPU 메모리 안에 머물렀고, PCIe와 공유 메모리 페널티를 피할 수 있었습니다.
작고 효율적인 모델은 이제 소비자 하드웨어에서도 실제로 활용 가능해졌습니다. 문제는 컨텍스트 길이, KV 캐시 성장, 메모리 스필오버가 동시에 복합적으로 작용하기 시작할 때부터입니다.

첫 번째 확인 사항: 모델이 실제로 GPU 메모리에 있나요?

nvidia-smi

대화가 진행될수록 VRAM 변화를 실시간으로 관찰

VRAM이 상승하고 속도가 떨어지면 KV 캐시가 RAM으로 넘쳐나는 것입니다

watch -n 1 nvidia-smi

모든 추론 실행은 두 단계로 이루어집니다.
Prefill: 모델이 전체 프롬프트를 병렬로 읽습니다. 연산 집약적이며 GPU가 잘 처리합니다. 보통 이 단계는 느껴지지 않습니다.
Decode: 모델이 출력 토큰을 하나씩 생성합니다. 이 단계는 메모리 바인드이며, 매 토큰마다 GPU가 모델 가중치를 메모리에서 다시 로드해야 합니다. GPU는 연산을 마치고 대기하게 되는데, 이는 속도가 느린 것이 아니라 대역폭이 부족해 굶주리는 상황입니다. 그래서 작업 관리자를 보면 GPU가 바쁘게 표시되면서도 로컬 추론이 느리게 느껴지는 것입니다.

메모리 대역폭 비교 — 토큰/초를 결정하는 요소

RTX 3050 4 GB → ~192 GB/s (내 머신)

RTX 3060 12 GB → ~360 GB/s

RTX 4090 24 GB → ~1008 GB/s

M4 Max → ~546 GB/s

M3 Ultra → ~800 GB/s

VRAM 용량은 모델을 로드하게 해 주고

대역폭은 실제 실행 속도를 결정합니다

무언가를 로드하기 전에 자신의 카드 사양을 확인하세요:

Linux: 드라이버에서 GPU 이름과 메모리를 조회

nvidia-smi —query-gpu=name,memory.total —format=csv

Windows: PowerShell에서는 grep이 없으니 Select-String 사용

nvidia-smi -q | Select-String “Product Name”, “Total”, “Free”, “Used”

Windows (WDDM)에서는 nvidia-smi가 메모리 대역폭을 보여주지 않음

실제 수치는 https://www.techpowerup.com/gpuz/ 에서 확인

메인 탭의 “Memory Bandwidth” 항목을 참고하세요

Apple Silicon: nvidia-smi가 없으니 system_profiler 사용

system_profiler SPHardwareDataType | grep -i bandwidth

모델이 VRAM에 들어가더라도 대화가 길어지면 그 여유 공간은 사라집니다.
모델이 본 토큰마다 키‑밸류 캐시에 저장됩니다. 이 캐시가 없으면 모델은 매 생성 단계마다 전체 대화를 다시 처리해야 합니다. KV 캐시는 메모리를 속도와 교환하는 역할을 하며, 토큰이 늘어날수록 커집니다.

Gemma 4 E2B의 경우, 4 GB 카드에서는 중간 생성 단계에서 메모리 한계에 도달합니다. 모델이 크래시되는 것은 아니지만, 시스템 RAM으로 조용히 오프로드되면서 토큰당 초당 처리량이 급격히 떨어집니다. 추론이 크게 시스템 RAM으로 스필오버되면 처리량이 급격히 붕괴합니다.

Ollama는 128K를 지원하는 모델이라도 기본값을 4096 토큰 컨텍스트로 제한

Gemma 4를 로컬에서 실행하는 가혹한 현실

지속적인 장문 추론 벤치마크

RTX 3050 노트북 GPU (4 GB VRAM)

16 GB DDR5 RAM

Windows에서 Ollama

Gemma 4 E2B

eval rate: ~38.68 tok/s

Gemma 4 E4B

eval rate: ~24.39 tok/s

동일한 프롬프트.

동일한 하드웨어.

동일한 런타임.

E2B는 놀라울 정도로 사용 가능했습니다.

E4B는 메모리 한계에 훨씬 더 가까워졌습니다.

첫 번째 확인 사항: 모델이 실제로 GPU 메모리에 있나요?

대화가 진행될수록 VRAM 변화를 실시간으로 관찰

VRAM이 상승하고 속도가 떨어지면 KV 캐시가 RAM으로 넘쳐나는 것입니다

메모리 대역폭 비교 — 토큰/초를 결정하는 요소

RTX 3050 4 GB → ~192 GB/s (내 머신)

RTX 3060 12 GB → ~360 GB/s

RTX 4090 24 GB → ~1008 GB/s

M4 Max → ~546 GB/s

M3 Ultra → ~800 GB/s

VRAM 용량은 모델을 로드하게 해 주고

대역폭은 실제 실행 속도를 결정합니다

Linux: 드라이버에서 GPU 이름과 메모리를 조회

Windows: PowerShell에서는 grep이 없으니 Select-String 사용

Windows (WDDM)에서는 nvidia-smi가 메모리 대역폭을 보여주지 않음

실제 수치는 https://www.techpowerup.com/gpuz/ 에서 확인

메인 탭의 “Memory Bandwidth” 항목을 참고하세요

Apple Silicon: nvidia-smi가 없으니 system_profiler 사용

Ollama는 128K를 지원하는 모델이라도 기본값을 4096 토큰 컨텍스트로 제한

관련 글

내 스킬

PREDICTION-20260525-0007: 비대칭 레버리지를 이용한 지루함 [2026-Q3 through 2027-Q3]

서버 없이 100개의 브라우저 기반 이미지 도구를 만든 방법 (FFmpeg WASM, PDF-lib, AI Background Removal)

Nginx CVE-2026-9256, AI 프롬프트 인젝션 방어, 그리고 Claude AI 데이터 유출 데모

지속적인 장문 추론 벤치마크

RTX 3050 노트북 GPU (4 GB VRAM)

16 GB DDR5 RAM

Windows에서 Ollama

Gemma 4 E2B

eval rate: ~38.68 tok/s

Gemma 4 E4B

eval rate: ~24.39 tok/s

동일한 프롬프트.

동일한 하드웨어.

동일한 런타임.

E2B는 놀라울 정도로 사용 가능했습니다.

E4B는 메모리 한계에 훨씬 더 가까워졌습니다.

첫 번째 확인 사항: 모델이 실제로 GPU 메모리에 있나요?

대화가 진행될수록 VRAM 변화를 실시간으로 관찰

VRAM이 상승하고 속도가 떨어지면 KV 캐시가 RAM으로 넘쳐나는 것입니다

메모리 대역폭 비교 — 토큰/초를 결정하는 요소

RTX 3050 4 GB → ~192 GB/s (내 머신)

RTX 3060 12 GB → ~360 GB/s

RTX 4090 24 GB → ~1008 GB/s

M4 Max → ~546 GB/s

M3 Ultra → ~800 GB/s

VRAM 용량은 모델을 로드하게 해 주고

대역폭은 실제 실행 속도를 결정합니다

Linux: 드라이버에서 GPU 이름과 메모리를 조회

Windows: PowerShell에서는 grep이 없으니 Select-String 사용

Windows (WDDM)에서는 nvidia-smi가 메모리 대역폭을 보여주지 않음

실제 수치는 https://www.techpowerup.com/gpuz/ 에서 확인

메인 탭의 “Memory Bandwidth” 항목을 참고하세요

Apple Silicon: nvidia-smi가 없으니 system_profiler 사용

Ollama는 128K를 지원하는 모델이라도 기본값을 4096 토큰 컨텍스트로 제한

관련 글

내 스킬

PREDICTION-20260525-0007: 비대칭 레버리지를 이용한 지루함 [2026-Q3 through 2027-Q3]

서버 없이 100개의 브라우저 기반 이미지 도구를 만든 방법 (FFmpeg WASM, PDF-lib, AI Background Removal)

Nginx CVE-2026-9256, AI 프롬프트 인젝션 방어, 그리고 Claude AI 데이터 유출 데모

RTX 3050 노트북 GPU (4 GB VRAM)

16 GB DDR5 RAM

Gemma 4 E2B

Gemma 4 E4B

RTX 3050 4 GB → ~192 GB/s (내 머신)

RTX 3060 12 GB → ~360 GB/s

RTX 4090 24 GB → ~1008 GB/s

M4 Max → ~546 GB/s

M3 Ultra → ~800 GB/s