Linux에서 llama-cli 실행

발행: 3개월 전 (2026년 1월 31일 오전 04:52 GMT+9)

6 분 소요

원문: Dev.to

Source: Dev.to

개요

로컬 LLM을 사용해 본 적이 있다면 Ollama, LM Studio, 혹은 Jan.ai를 사용했을 가능성이 높습니다. 이 도구들은 접근성이 뛰어나지만, Linux 사용자라면 더 많은 제어권, 배경의 “마법” 최소화, 그리고 높은 성능을 원할 수 있습니다.

우리는 “후드 아래”로 들어가 래퍼(Ollama)에서 엔진(llama.cpp)으로 이동해 로컬 실리콘에서 가능한 모든 성능을 끌어낼 것입니다.

계층 구조 개요

llama.cpp → Engine: Llama 아키텍처의 순수 C++ 구현; 추론을 수행하는 핵심 수학 라이브러리.
Ollama   → Wrapper: llama.cpp를 Go 기반 관리 레이어, 모델 레지스트리, 백그라운드 서비스와 번들링.

CLI로 전환하는 이유

투명성: 숨겨진 데몬이 없습니다. 프로세스가 종료되면 RAM이 100 % 비워집니다.
성능: 소프트웨어 오버헤드를 없애 토큰 생성 속도가 10–20 % 빨라집니다.
하드웨어 마스터리: AVX‑512와 같은 명령어 집합을 명시적으로 타깃팅할 수 있어, 일반 바이너리가 호환성을 위해 무시하는 기능을 활용할 수 있습니다.

범용 베이스라인 (하드웨어)

전용 GPU 없이 Linux에서 최신 7B‑ 또는 8B‑파라미터 모델(예: Llama 3.1 또는 Mistral)을 편하게 실행하려면 다음을 목표로 하세요:

PC: 2020년 이후 제조
RAM: 12 GB 이상 (8 GB도 가능하지만 스와핑이 발생할 수 있음)
CPU: Intel 11세대 이상 또는 AMD Ryzen 5000 이상
OS: 최신 Linux 배포판 (간편함을 위해 Debian/Ubuntu 권장)

명령어 집합 점검

로컬 AI의 “비밀 무기”는 AVX(Advanced Vector Extensions)입니다. CPU가 지원하는 명령어를 확인하려면 다음을 실행하세요:

lscpu | grep -E "avx(2|512(f|bw|dq|vl|vnni)?)"

다음 항목을 찾아보세요:

AVX2 – 표준 베이스라인.
AVX‑512 / VNNI – 최상위 표준. avx512_vnni가 보이면 AI 전용 수학을 훨씬 빠르게 처리할 수 있습니다.

설치: 실리콘에 맞게 빌드하기

엔진을 직접 컴파일해 CPU 플래그에 최적화된 바이너리를 확보합니다.

# 빌드 필수 패키지 설치
sudo apt update && sudo apt install -y build-essential cmake git wget

# 저장소 클론
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

# 네이티브 플래그로 빌드 (AVX2/AVX‑512 자동 감지)
cmake -B build -DGGML_NATIVE=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --config Release -j "$(nproc)"

모델 다운로드

llama.cpp는 GGUF 포맷을 사용합니다. Ollama의 pull 명령 대신 Hugging Face에서 직접 모델을 받아오세요. 약 12 GB RAM을 가진 머신이라면 Q4_K_M(4‑bit) 양자화가 좋은 균형을 제공합니다.

mkdir -p models
wget -O models/llama-3.1-8b-q4.gguf \
  https://huggingface.co/bartowski/Meta-Llama-3.1-8B-Instruct-GGUF/resolve/main/Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf

(하드웨어가 더 제한적이라면 4B 혹은 1.5B와 같은 작은 모델을 고려하세요.)

운영: 파워 유저 명령어

주 실행 파일은 llama-cli입니다. 로컬 세션을 시작하려면 다음을 실행하세요:

./build/bin/llama-cli \
  -m models/llama-3.1-8b-q4.gguf \
  -cnv \
  --color \
  --mlock \
  -t 4

플래그 설명

-cnv 대화 모드 활성화(채팅 템플릿을 자동 처리).
--color 프롬프트(녹색/청록)와 모델 응답(흰색)을 색상으로 표시.
--mlock 모델을 물리 RAM에 고정해 스와핑을 방지—노트북에서 필수.
-t 4 4개의 물리 코어 사용(CPU에 맞게 조정).

검증: 정상 작동 여부 확인

명령을 실행하면 첫 몇 줄에 다음과 유사한 system_info 라인이 표시됩니다:

system_info: n_threads = 4 | AVX = 1 | AVX2 = 1 | AVX512 = 1 | AVX512_VNNI = 1 |

AVX512 = 1이 보이면 하드웨어 한계까지 AI 어시스턴트를 최적화한 것입니다. 이제 텔레메트리 없이 완전 투명하게, 개인용 고성능 LLM을 실행하고 있습니다.

문제가 발생하면 언제든지 질문을 올려 도움을 받으세요. 행운을 빕니다!

Linux에서 llama-cli 실행

개요

계층 구조 개요

CLI로 전환하는 이유

범용 베이스라인 (하드웨어)

명령어 집합 점검

설치: 실리콘에 맞게 빌드하기

모델 다운로드

운영: 파워 유저 명령어

플래그 설명

검증: 정상 작동 여부 확인

관련 글

Claude Code를 무료로 실행하는 방법: Ollama의 로컬 및 클라우드 모델 사용

xAI가 SpaceX에 합류

구축, 연구, 그리고 공유 학습을 통해 AI 커뮤니티와 소통하기

OpenAI, macOS용 Codex 앱 출시, 자세한 내용은 다음과 같습니다