在 Linux 上运行 llama-cli

发布: 3个月前 (2026年1月31日 GMT+8 03:52)

4 分钟阅读

原文: Dev.to

Source: Dev.to

概览

如果你已经尝试过本地 LLM，可能使用过 Ollama、LM Studio 或 Jan.ai。这些工具在易用性上表现出色，但作为 Linux 用户，你可能希望拥有更多控制权、更少后台“魔法”，以及更高的性能。

我们将“深入内部”，从包装层（Ollama）转到引擎层（llama.cpp），从而把本地硅片的每一点算力都释放出来。

层级概览

llama.cpp → Engine: A raw C++ implementation of the Llama architecture; the core mathematical library that performs inference.
Ollama   → Wrapper: Bundles llama.cpp with a Go‑based management layer, a model registry, and a background service.

为什么要切换到 CLI？

Transparency: No hidden daemons. When the process ends, your RAM is 100 % empty.
Performance: 10–20 % faster token generation by cutting out software overhead.
Hardware Mastery: You can explicitly target instruction sets like AVX‑512, which generic binaries often ignore for compatibility.

通用基准（硬件）

要在没有专用 GPU 的 Linux 上舒适运行现代 7B‑ 或 8B‑参数模型（例如 Llama 3.1 或 Mistral），目标配置如下：

PC：2020 年或更新的机型
RAM：12 GB 以上（8 GB 可用，但可能会产生交换）
CPU：Intel 11th Gen + 或 AMD Ryzen 5000 +
OS：任意现代 Linux 发行版（为简化起见推荐 Debian/Ubuntu）

指令集检查

本地 AI 的“秘密力量”是 AVX（Advanced Vector Extensions）。要查看 CPU 支持哪些指令集，运行：

lscpu | grep -E "avx(2|512(f|bw|dq|vl|vnni)?)"

关注以下输出：

AVX2 – 标准基线。
AVX‑512 / VNNI – 黄金标准。如果看到 avx512_vnni，说明你的 CPU 能显著加速 AI 专用数学运算。

安装：为你的硅片构建

我们自行编译引擎，以确保针对你的 CPU 标志进行优化。

# Install build essentials
sudo apt update && sudo apt install -y build-essential cmake git wget

# Clone the repository
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

# Build with native flags (auto‑detects AVX2/AVX‑512)
cmake -B build -DGGML_NATIVE=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --config Release -j "$(nproc)"

下载模型

llama.cpp 使用 GGUF 格式。与 Ollama 的 pull 命令不同，直接从 Hugging Face 下载模型。对于约 12 GB RAM 的机器，Q4_K_M（4‑bit）量化是一个不错的平衡。

mkdir -p models
wget -O models/llama-3.1-8b-q4.gguf \
  https://huggingface.co/bartowski/Meta-Llama-3.1-8B-Instruct-GGUF/resolve/main/Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf

（如果硬件更受限，考虑使用更小的模型，如 4B 或 1.5B 变体。）

操作：高级用户命令

主要可执行文件是 llama-cli。运行本地会话的方式如下：

./build/bin/llama-cli \
  -m models/llama-3.1-8b-q4.gguf \
  -cnv \
  --color \
  --mlock \
  -t 4

参数说明

-cnv 启用对话模式（自动处理聊天模板）。
--color 为提示（绿色/青色）和模型回复（白色）着色。
--mlock 将模型锁定在物理内存中，防止交换——在笔记本上尤为关键。
-t 4 使用 4 个物理核心（根据你的 CPU 调整）。

验证：是否正常工作？

启动命令后，检查前几行是否出现类似以下的 system_info 行：

system_info: n_threads = 4 | AVX = 1 | AVX2 = 1 | AVX512 = 1 | AVX512_VNNI = 1 |

如果 AVX512 = 1，说明你已经成功将 AI 助手优化到硬件的极限。现在，你正在运行一个私有、超优化的 LLM，零遥测、完全透明。

如果遇到问题，欢迎发帖求助。祝你好运！

在 Linux 上运行 llama-cli

概览

层级概览

为什么要切换到 CLI？

通用基准（硬件）

指令集检查

安装：为你的硅片构建

下载模型

操作：高级用户命令

参数说明

验证：是否正常工作？

相关文章

如何免费运行 Claude Code，使用 Ollama 的本地和云模型

xAI 加入 SpaceX

Adam Neely：Suno、AI音乐与糟糕的未来

交叉熵导数，第2部分：对偏置的导数设置