1,175명 레디터가 올라마 사용을 중단하라고 말했고, 그 이유는 로컬 AI 툴이 본격화되었다.

발행: (2026년 6월 18일 AM 11:01 GMT+9)
20 분 소요
원문: Dev.to

출처: Dev.to

Last week, the top post on r/LocalLLaMA — 1,175 upvotes, 345 comments — was titled “Stop using Ollama.” Not “consider alternatives.” Not “Ollama has limitations.” Just: stop.

마지막 주, r/LocalLLaMA에서 가장 상위 게시물(1,175 업보팅, 345 댓글)은 제목이 “ollama 사용 중지”였습니다. “대안 고려해 보세요.”도, “ollama는 제한점이 있습니다.”도 아니었습니다. 단순히 “중지하세요.”

That’s a strong statement. But the replies weren’t angry. They were relieved. Like a whole community had been thinking the same thing for months and finally someone said it out loud.

이건 강력한 발언입니다. 하지만 답변들은 화가 났던 것이 아니라 안도했습니다. 마치 몇 달 동안 같은 생각을 해온 전체 커뮤니티가 드디어 누군가가 입 밖에 냈다는 느낌으로요.

Here’s what’s actually going on, and what it means if you’re running models locally.

실제로 어떤 일이 일어나고 있는지, 그리고 로컬에서 모델을 실행하고 있는 사람들에게는 어떤 의미가 있는지 설명드리겠습니다.

Before we get into the problems, credit where it’s due. Ollama did something nobody else managed: it made running a local LLM feel like installing a brew package.

문제점에 대해 들어가기 전에 공을 치는 건 worth합니다. Ollama는 다른 누구도 하지 못했던 일을 했습니다: 로컬 LLM 실행이 Homebrew 패키지 설치처럼 간단하게 느껴지게 만들었죠.

ollama pull llama3
ollama run llama3

Two commands. No CUDA headaches, no quantization math, no “which GGUF variant do I actually need?” It just worked. For a lot of people, Ollama was their first experience running an LLM on their own hardware, and that matters.

명령 두 개만으로 CUDA 문제도, 양자화 수학도, “어떤 GGUF 변수가 필요할까?” 같은 고민도 없이 바로 동작했습니다. 많은 사람들에게 Ollama는 자체 하드웨어에서 로컬 LLM을 실행하는 첫 경험이었고, 그것이 중요합니다.

The project also built a curated model registry. You didn’t have to navigate Hugging Face’s overwhelming model zoo. Pick a name, pull it, chat. Simple.

프로젝트도 큐레이션된 모델 레지스트리를 구축했습니다. Hugging Face의 복잡한 모델 갤러리를 헤매는 필요가 없었습니다. 이름만 골라서 끌어와서 대화하면 됩니다. 간단하죠.

That simplicity was the whole point. And for a while, it was enough.

그 단순함이 전부였습니다. 그리고 일정 기간 동안은 충분했습니다.

The first crack showed up when someone noticed Ollama hadn’t credited llama.cpp in its MIT license for over 400 days. That’s not a minor nitpick. The MIT license has exactly one major requirement: include the copyright notice. Ollama didn’t.

첫 번째 균열은 누군가가 Ollama가 400일 넘게 MIT 라이선스에 llama.cpp를 언급하지 않았다는 사실을 발견하면서 나타났습니다. 이는 사소한 미세한 불만점이 아닙니다. MIT 라이선스는 정확히 하나의 주요 요구 사항만 있습니다: 저작권 표시를 포함하는 것입니다. Ollama는 이를 위반했습니다.

Co-founder Michael Chiang eventually added a single line to the README: “llama.cpp project founded by Georgi Gerganov.” But the damage to community trust was done. Ollama had built its entire product on top of llama.cpp’s inference engine, marketed itself as a friendly face of local LLMs, and for a long time didn’t acknowledge the upstream project that made it possible.

공동 창업자 Michael Chiang는 결국 README에 “llama.cpp 프로젝트는 Georgi Gerganov에 의해 설립되었습니다.” 라는 한 줄을 추가했습니다. 하지만 커뮤니티 신뢰에 대한 피해는 이미 발생했습니다. Ollama는 llama.cpp의 추론 엔진 위에 전체 제품을 구축했고, 로컬 LLM의 친근한 대변자로 포지셔닝했으며, 오랜 시간 동안 그 기반이 된 업스트림 프로젝트에 대한 인정을 하지 않았습니다.

This matters less for the license technically (MIT is permissive) and more for the vibe. The local LLM community runs on open source goodwill. When the most popular tool seems to be distancing itself from its roots, people notice.

기술적으로는 라이선스에 대한 문제가 덜하지만 분위기에 더 큰 의미가 있습니다. 로컬 LLM 커뮤니티는 오픈 소스 선의에 기반을 둡니다. 가장 인기 있는 도구가 그 뿌리에서 멀어지는 것처럼 보이면 사람들은 주목합니다.

This is the one that actually bites.

이게 진짜로 아픔을 줍니다.

When you run ollama pull llama3, the model gets stored in ~/.ollama/models in a proprietary hashed blob format. That GGUF file — the thing you actually downloaded — becomes inaccessible to other tools. You can’t point llama.cpp at it. You can’t move it into LM Studio. You can’t easily back it up or share it.

ollama pull llama3를 실행하면 모델은 ~/.ollama/models 디렉터리에 특허받은 해시 블롭 형식으로 저장됩니다. 실제 다운로드한 GGUF 파일은 다른 도구에서 접근할 수 없게 됩니다. llama.cpp에指向 할 수 없고, LM Studio로 이동시킬 수도 없으며, 쉽게 백업하거나 공유할 수 없습니다.

If you want to use the same model in a different tool, you download it again. From Hugging Face or wherever. That’s not a feature, that’s friction disguised as convenience.

다른 도구에서 동일한 모델을 사용하려면 다시 다운로드해야 합니다. Hugging Face나 다른 곳에서요. 이는 기능이 아니라 편의성 위장된 마찰입니다.

Compare that to llama.cpp, where you download a GGUF file, put it wherever you want, and point any compatible tool at it. The file is yours. It sits on your disk in a format every local LLM tool understands. No vendor lock-in, no re-downloading, no proprietary storage.

반대로 llama.cpp는 GGUF 파일을 다운로드하고 원하는 위치에 두고, 호환 가능한 모든 도구에指向 할 수 있게 합니다. 파일은 당신의 것입니다. 디스크에 있으며, 모든 로컬 LLM 도구가 이해할 수 있는 포맷으로 저장됩니다. 벤더 락인도, 재다운로드도, 특허 저장소도 없습니다.

For a project that markets itself on local-first, privacy-respecting AI, having a proprietary model storage layer is a strange choice.

로컬 우선, 프라이버시 보호 AI를 마케팅하는 프로젝트가 자체적인 모델 저장 레이어를 가지고 있다는 것은 이상한 선택입니다.

This one surprised me. The default Ollama setup runs with conservative settings — low context length, limited parallel slots. For casual chatting, you won’t notice. But if you’re trying to do real work — running a model as a backend for coding tools, serving multiple requests, or just wanting the fastest inference your hardware can handle — Ollama leaves performance on the table.

이건 제게는 놀랐습니다. 기본 Ollama 설정은 보수적인 설정을 사용합니다 — 컨텍스트 길이 제한, 병렬 슬롯 제한. 캐주얼 채팅에서는 눈에 띄지 않지만, 실제 작업(코딩 도구 백엔드로 모델 실행, 여러 요청 처리, 하드웨어가 제공하는 최속 추론)을 원한다면 Ollama는 성능을 남깁니다.

Users consistently report that llama.cpp runs the same models faster, with lower memory usage. On AMD GPUs specifically, llama.cpp’s ROCm support outperforms Ollama’s implementation. And the gap widens when you tune parameters like —ctx-size and —parallel — settings that Ollama abstracts away (which is sometimes a feature and sometimes a problem).

사용자들은 llama.cpp가 동일한 모델을 더 빠르고 메모리 사용량이 적게 한다는 점을 일관되게 보고합니다. 특히 AMD GPU에서는 llama.cpp의 ROCm 지원이 Ollama 구현보다 우수합니다. 파라미터 최적화(예: —ctx-size, —parallel)를 할 경우 격차는 더욱 커집니다. 이는 Ollama가 추상화하고 있는 설정(때로는 장점, 때로는 문제)이기 때문입니다.

A blog post that made the rounds on HN put it bluntly: “The local LLM ecosystem doesn’t need Ollama.” The argument wasn’t that Ollama is bad. It’s that llama.cpp has matured enough that the simplicity gap has closed, while the performance gap hasn’t.

HN(하acker news)에서 유행한 블로그 포스트는 명료하게 말했습니다: “로컬 LLM 생태계는 Ollama가 필요 없다.” 논의는 Ollama가 나쁜 것이 아니며, llama.cpp가 성숙하면서 단순성 격차가 사라졌지만, 성능 격차는 여전히 존재한다는 점을 강조했습니다.

Here’s the thing — if you tried llama.cpp a year ago and bounced off it, you should try again. The project has shipped a lot of quality-of-life improvements.

핵심은 이것입니다 — llama.cpp를 일 년 전쯤 시도해 보고 포기했다면 다시 한 번 시도해 보세요. 프로젝트는 많은 사용자 경험 개선(QoL) 업데이트를 출시했습니다.

brew install llama.cpp
llama-server -hf ggml-org/gemma-4-E4B-it-GGUF --port 8000

That’s it. One command installs it, one command pulls a model from Hugging Face and starts a server with a built-in web UI. OpenAI-compatible API on port 8000. Same vibe as Ollama, same two-command simplicity, but without the proprietary storage or performance overhead.

그게 전부입니다. 한 명령으로 설치하고, 한 명령으로 Hugging Face에서 모델을 끌어와서 내장 웹 UI를 갖춘 서버를 시작합니다. 8000 포트에서 OpenAI 호환 API 제공. Ollama와 동일한 분위기와 두-command 단순함을 가지지만, 특허 저장소나 성능 오버헤드가 없습니다.

What else is new:

추가 사항:

Built-in GUI — llama-server ships with a web chat interface. No separate frontend needed.

내장 GUI — llama-server는 웹 채팅 인터페이스를 포함하고 있어 별도 프론트엔드가 필요 없습니다.

—hf flag — pull models directly from Hugging Face by name. No more hunting for the right GGUF download link.

—hf 플래그 — 모델 이름을 직접 Hugging Face에서 끌어와서 다운로드할 수 있습니다. 정확한 GGUF 다운로드 링크를 찾는 번거로움이 없습니다.

Router mode — hot-swap between models without restarting the server.

라우터 모드 — 서버 재시작 없이 모델을 핫스왑합니다.

MCP support — Model Context Protocol integration for agent workflows.

MCP 지원 — 에이전트 워크플로용 Model Context Protocol 통합.

Speculative decoding — MTP support for Qwen 3.6 dense models gets roughly 2x single-user speedup.

추론 추측 — Qwen 3.6 밀도 모델에 대한 MTP(모델 튜닝) 지원으로 단일 사용자 속도가 약 2배 향상됩니다.

The learning curve is still slightly steeper than Ollama (you need to understand a few CLI flags), but the gap is nothing like it used to be. And the payoff is real: you get full control over your inference setup with no abstraction layer getting in the way.

학습 곡선은 여전히 Ollama보다 약간 가파르지만(몇 개의 CLI 플래그를 이해해야 함) 이전보다는 크게 벌어지지 않았습니다. 보상으로는 추상화 레이어가 방해하지 않는 완전한 인ference 설정을 제어할 수 있습니다.

The r/LocalLLaMA community isn’t just saying “switch to llama.cpp.” The conversation has fractured into distinct camps based on what people actually need.

r/LocalLLaMA 커뮤니티는 단순히 “llama.cpp로 전환하세요”라고 말하지 않습니다. 실제 필요에 따라人们이 나뉜 다양한 진영으로 대화가 분열되었습니다.

For desktop users who want a GUI: LM Studio is the frontrunner. Polished interface, built-in Hugging Face model search, OpenAI-compatible local API. It uses llama.cpp under the hood but wraps it in something that feels like a proper desktop app. The trade-off: it’s closed-source on the core.

데스크톱 사용자 중 GUI를 원한다면 LM Studio가 선두주자입니다. 다듬은 인터페이스, Hugging Face 모델 검색 기능, OpenAI 호환 로컬 API를 제공합니다. 내부적으로 llama.cpp를 사용하지만 데스크톱 앱처럼 느껴지는 래퍼를 씌워둡니다. 단점: 핵심 부분이 폐쇄 소스입니다.

For privacy-first chat: Jan AI. Fully open-source (MIT), cross-platform, no telemetry. Clean enough for non-technical users, open enough for developers to trust.

프라이버시 중심 채팅: Jan AI. MIT 라이선스로 완전히 오픈 소스이며, 크로스플랫폼, 텔레메트리 없음. 비기술자도 사용하기에 깔끔하고 개발자는 신뢰할 수 있습니다.

For production serving: vLLM. This is the multi-GPU, high-throughput, continuous-batching option. If you’re serving models to actual users and need tensor parallelism across multiple GPUs, vLLM is what you reach for. Not a desktop tool — an inference engine built for load.

생산 서빙용: vLLM. 멀티 GPU, 고처리량, 연속 배치를 지원하는 옵션입니다. 실제 사용자에게 모델을 제공하고 다중 GPU에서 텐서 병렬 처리가 필요하면 vLLM을 찾게 됩니다. 데스크톱 도구가 아니라, 부하를 위한 inference 엔진입니다.

For portable distribution: llamafile. Single executable, bundles the model, runs anywhere. Mozilla-backed. Great for demos or distributing AI tools to people who don’t want to install anything.

휴대용 배포: llamafile. 단일 실행 파일로 모델을 번들링해 어디서든 실행할 수 있습니다. Mozilla에서 backing합니다. 데모나 설치 없이 AI 도구를 배포하고자 하는 사람들에게 적합합니다.

For RAG and document chat: AnythingLLM. First-class support for multiple vector databases, workspace-based document management, built-in RAG pipelines.

RAG 및 문서 채팅용: AnythingLLM. 여러 벡터 DB를 지원하고, 워크스페이스 기반 문서 관리, 내장된 RAG 파이프라인을 제공합니다.

For teams: Open WebUI. ChatGPT-like web interface, multi-user with admin controls, runs on Docker. Pairs with any OpenAI-compatible backend.

팀용: Open WebUI. ChatGPT와 유사한 웹 인터페이스, 다중 사용자 및 관리자 제어 기능, Docker에서 실행됩니다. OpenAI 호환 백엔드와 호환됩니다.

The point isn’t that one tool replaces Ollama for everyone. It’s that the ecosystem now has purpose-built tools for every use case, and most of them are more open and more performant than Ollama for their specific niche.

핵심은 한 도구가 모든 사람에게 Ollama를 대체한다는 것이 아니라, 생태계는 이제 사용 사례별로 맞춤형 도구를 갖추고 있으며, 대부분의 도구는 해당 분야에서 Ollama보다 더 개방적이고 더 성능이 좋습니다.

To be fair, Ollama hasn’t stood still. Version 0.24 shipped recently with Codex App support, a reworked MLX sampler for Apple Silicon, and a cached /api/show endpoint. The ollama launch integration surface is expanding, and there’s active work on desktop-app integrations.

공정히 말해 Ollama도 가만히 서 있지 않았습니다. 최근 0.24 버전이 Codex App 지원, Apple Silicon용 재작성된 MLX 샘플러, 캐시된 /api-show 엔드포인트를 출시했습니다. ollama 런칭 통합 인터페이스가 확장되고 데스크톱 앱 통합 작업도 활발히 진행 중입니다.

But the updates feel reactive rather than directional. The project is adding features to keep up, not pushing the ecosystem forward in the way llama.cpp’s recent improvements have.

하지만 업데이트는 반응적인 느낌을 주며, 기존 생태계를 따라잡으려는 시도입니다. llama.cpp의 최근 개선처럼 생태계를 주도하지 않고요.

And the proprietary storage format — the biggest community complaint — hasn’t changed.

특허 저장소 포맷 — 커뮤니티가 가장 크게 불만을 품은 요소 — 변하지 않았습니다.

The “stop using Ollama” movement isn’t about Ollama being bad. It’s about the local LLM community growing up.

“ollama 사용 중지” 운동은 Ollama가 나쁜 것이 아니라 로컬 LLM 커뮤니티가 성장하고 있다는 것을 보여줍니다.

When you’re just getting started, ollama pull and ollama run are genuinely great. They lower the barrier to entry in a way nothing else has.

처음 시작하는 사람에게 ollama pull 과 ollama run 은 realmente 훌륭합니다. 다른 무엇보다도 진입 장벽을 낮춰줍니다.

But once you’ve been running local models for a while — once you care about performance tuning, model portability, GPU optimization, or building something on top of inference — Ollama’s abstractions start to feel like walls instead of guardrails.

하지만 로컬 모델을 일정 기간 실행해 본 뒤 — 성능 튜닝, 모델 이동성, GPU 최적화, 혹은 추론 위에 무언가 구축하려는 경우에 — Ollama의 추상화가 장벽처럼 느껴지기 시작합니다. guardrails(보호막) 대신 Walls(장벽)이 된 거죠.

The ecosystem has matured. llama.cpp is easier to use than ever and faster than Ollama.

생태계는 성숙했습니다. llama.cpp는 지금까지보다 사용하기 쉬우며, Ollama보다 빠릅니다.

LM Studio gives you a GUI without lock-in. vLLM handles production

LM Studio는 락인 없이 GUI를 제공합니다. vLLM은 프로덕션을 처리합니다

0 조회
Back to Blog

관련 글

더 보기 »

코드 리뷰가 잘못됐다

!Cover image for Code Review Gone Wronghttps://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%2F%2Flavkesh.com%2F...