보통 사양 PC에서 Gemma 4 실행: Unsloth·LM Studio·llama.cpp·Ollama 비교
Source: Dev.to
이 글은 Gemma 4 챌린지에 제출한 “Gemma 4에 대해 쓰기” 에세이입니다.
온라인에서 로컬 AI 대화를 보면 보통 이렇게 들립니다: “내 듀얼‑GPU 워크스테이션에서 70B 모델을 돌렸어.” 혹은 “64GB RAM과 24GB 그래픽 카드만 있으면 돼.”
하지만 저는 인텔 i5, 16GB RAM, 통합 그래픽, 약 350GB 저장 공간, 그리고 책상 밑에 숨겨진 거대한 GPU 하나도 없는 환경에 앉아 있습니다.
그래서 계속 언급되는 네 가지 이름을 살펴보았습니다: Unsloth, LM Studio, llama.cpp, 그리고 Ollama.
처음엔 간단히 가정했습니다. 하나만 골라서 다른 것들은 무시한다.
- 모델 파인튜닝 → Unsloth
- 추론 엔진 → llama.cpp
- 서빙 레이어 → Ollama
- 데스크톱 UI → LM Studio
이들은 서로를 대체하기보다 겹쳐서 작동합니다. 실제로 LM Studio와 Ollama는 모두 내부에서 llama.cpp를 사용합니다. 양자화나 서버 플래그를 직접 저수준으로 제어하고 싶지 않다면 별도로 llama.cpp를 설치할 필요는 없습니다.
파인튜닝은 보통 비용이 많이 듭니다. 거대한 GPU, 큰 메모리, 긴 학습 시간 등. Unsloth는 그 비용을 크게 낮추려 합니다.
LM Studio는 거의 모든 마찰을 없애줍니다. 다운로드하고, 모델을 선택하고, 실행하고, 바로 테스트합니다. 제 같은 사양에서는 큰 차이가 됩니다.
llama.cpp는 화려하지 않습니다. 깔끔한 인터페이스도, 큰 버튼도 없지만 어디에나 등장하고, 그럴만한 이유가 있습니다.
Ollama는 즉시 직관적으로 다가온 도구였습니다.
ollama run gemma4:e4b
그 단순함이 전체와의 관계를 바꿔줍니다. 파일과 설정을 관리하는 데 시간을 쓰는 대신, 실제로 무언가를 만드는 데 집중하게 됩니다. FastAPI, Django, LangChain, 혹은 에이전트 시스템을 사용할 때 Ollama는 더 이상 소프트웨어가 아니라 “그냥 존재해 주길 바라는 인프라”처럼 느껴집니다.
Gemma 4는 네 가지 크기로 제공됩니다: E2B, E4B, 26B MoE 모델, 그리고 31B dense 모델. 제 하드웨어로는 26B와 31B 변형은 디스크 오프로드와 심각한 속도 저하를 감수하지 않는 한 실질적으로 불가능합니다. E2B와 E4B 모델은 엣지와 온‑디바이스 배포를 위해 설계돼 있어 현실적인 선택입니다. 가능한 경우 양자화된 버전을 사용합니다.
- 실험용: LM Studio
- 애플리케이션 서빙: Ollama
- 최적화된 추론: llama.cpp (직접 제어가 필요할 때)
- 파인튜닝 실험: Unsloth
16GB 머신에 네 가지 모두 설치할 수 있을까요? 예.
모델을 호스팅하면서 동시에 모두 실행할 수 있을까요? 아니요.
가장 유용한 발견은 어느 도구가 최고인지는 아니었습니다. 로컬 AI가 이제는 순수 하드웨어보다 주변 툴링에 더 많이 좌우된다는 점을 깨달은 것이었습니다. 저는 남아프리카 공화국 시골 교실의 아이들을 위한 EdgeTutor를 만들고 있습니다. 이 애플리케이션은 교사가 아이들의 개별 요구에 맞춰 도움을 줄 수 있게 해줍니다. Gemma 4 같은 모델은 작은 컴퓨팅 자원에서도 실행될 수 있어 이를 가능하게 합니다.
몇 년 전만 해도 제 사양의 머신은 이런 대화에 전혀 참여할 수 없었습니다. 작은 Gemma 4 모델은 노트북이나 모바일 디바이스에서 효율적으로 실행되도록 설계돼 있어, 워크스테이션을 갖추지 않은 개발자도 이제는 실제로 참여할 수 있게 되었습니다.
가장 큰 모델은 아니어도 충분히 구축할 수 있습니다. 그리고 때로는 그 정도면 바로 필요한 전부입니다.