本地 LLM Agent 基准：在真实场景中比较 6 种模型

发布: 3天前 (2026年2月28日 GMT+8 15:01)

9 分钟阅读

I’m happy to translate the article for you, but I’ll need the full text you’d like translated. Could you please paste the content (excluding the source line you already provided) here? Once I have the article text, I’ll translate it into Simplified Chinese while preserving the original formatting, markdown, and any code blocks or URLs.

通过实际结果正确性而非仅工具调用存在来衡量 AI 代理性能

为什么我们构建了这个基准

“为了让普通用户能够使用，关键是找到 VRAM 占用尽可能低的 LLM。”

大多数 LLM 基准使用学术指标，如 MMLU、HumanEval 或 HellaSwag 来评估模型。
对于 使用工具的 AI 代理，真正重要的不是 “它是否调用了正确的工具？” —— 而是 “它是否真的产生了正确的结果？”

我们的项目 Androi 是一个本地 AI 代理，使用 10 多种工具（网页搜索、Python 执行、文件管理、电子邮件、日历等）。我们将不同的 LLM 连接到同一个代理上，运行 5 个相同的、复杂的真实场景，并根据它们输出的正确性进行评分。

测试环境

组件	规格
服务器	Ubuntu VM (3.8 GB RAM, 20 GB SSD)
运行时	Ollama (local inference)
框架	Androi Agent (Node.js + Python tool pipeline)
验证	Outcome‑Based Validation (v2)
测试日期	2026‑02‑28

5 个真实场景测试（共 39 项检查）

每个测试都要求代理 按顺序串联多个工具 来完成一个复杂的多步骤任务。

U01. 🏦 全球资产再平衡顾问（9 项检查）

场景
用户持有 50 股三星电子、0.1 BTC、3000 美元以及 1 盎司黄金。代理必须：

网页搜索 每种资产的当前价格（三星股票、比特币、美元/韩元汇率、黄金价格）。
转换所有价值为韩元并计算投资组合总价值。
执行 Python 计算每种资产的权重（%）。
对比理想配置（股票 40 %、加密货币 20 %、美元 20 %、黄金 20 %）并给出再平衡建议。
保存报告至 /tmp/rebalance_report.txt。
注册下周五的日历事件用于复盘。
通过邮件 发送报告（附件）。

验证检查

三星价格
比特币价格
美元/韩元汇率
黄金价格
投资组合总价值计算
权重分析
再平衡建议
报告文件已保存
邮件已发送

必需工具
web_search × 4、run_python_code / calculate、write_file、create_event、send_email

U02. 📊 实时技术趋势研究与报告（8 项检查）

场景

搜索 “AI semiconductor market forecast 2026” → 收集市场规模数据。
搜索 “NVIDIA HBM market share 2026” → 捕获竞争格局。
搜索 “Samsung HBM3E mass production” → 韩国产业现状。
使用 Python 生成包含收集数据的 Markdown 报告。
保存报告至 /tmp/ai_semiconductor_report.md。
注册每周自动任务以获取趋势更新。
通过邮件 发送报告。

验证检查

提及市场规模
提及 NVIDIA
提及 HBM
包含三星趋势
包含 SK Hynix 趋势
报告已保存
自动任务已注册
邮件已发送

必需工具
web_search × 3、run_python_code、write_file、create_task、send_email

U03. 🖥️ 服务器健康检查 + 自动恢复 + 警报（7 项检查）

场景

运行 df -h → 磁盘使用情况检查。
运行 free -h → 内存状态检查。
运行 systemctl list-units --state=failed → 列出失败的服务。
使用 Python 分析 /var/log/syslog 最近 50 行的 ERROR/WARNING/CRITICAL 频率。
使用 find 列出 7 天前的临时文件。
保存完整报告并给出风险等级评估（高/中/低）。
注册每小时一次的自动检查任务。

验证检查

捕获磁盘使用情况
捕获内存状态
捕获服务状态
捕获日志分析结果
提供风险等级评估
报告已保存
自动任务已注册

必需工具
run_command × 4、run_python_code、write_file、create_task

U04. 🌍 旅行规划师（8 项检查）

场景

搜索 “Jeju Island February weather” → 获取温度与天气情况。
搜索 “Jeju winter restaurant recommendations 2026” → 选出 3 家餐厅。
搜索 “Jeju winter tourist attractions” → 选出 3 个景点。
使用 Python 创建 第 1 天 / 第 2 天时间表（09:00 – 21:00，交替安排景点和餐厅）。
计算预算估算：餐饮 30 K KRW × 6 = 180 K，酒店 150 K，交通 50 K → 总计 380 K KRW。
保存旅行计划至文件。
注册出发和返回的日历事件。
通过邮件 发送计划。

验证检查

包含天气信息
包含餐厅推荐
包含旅游景点
存在第 1 天 / 第 2 天的区分
已生成时间表
显示费用计算
已创建日历事件
邮件已发送

必需工具
web_search × 3、run_python_code、calculate、write_file、create_event × 2、send_email

U05. 🧬 代码分析 + 优化 + 部署（7 项检查）

场景

read_file → 读取整个源代码

code.
2. 执行 Python 来统计行数、函数数和类数。
3. 运行 wc -l /root/xoul/tools/*.py → 总模块大小。
4. 使用 calculate 计算 tool_registry.py 在整个代码库中的百分比。
5. 保存分析报告到 /tmp/code_analysis.txt。
6. 将关键发现存储在记忆中（recall/memorize）。
7. 发送报告 via email。

验证检查

已报告行数
已报告函数数
已报告总模块大小
已计算百分比
已解释代码结构
已保存报告
已发送邮件

所需工具
read_file, run_python_code, run_command, calculate, write_file, memorize, send_email

验证方法：结果导向

Instead of checking “did it call the right tool?”, we verify “does the output contain the correct information?”

100% = 🏆 PERFECT — All validation checks passed
≥70% = ✅ GOOD    — Most critical outcomes achieved
≥50% = ⚠️ PARTIAL — More than half achieved
**Observation:** For agent tasks, tool‑use capability and instruction following matter more than raw parameter count.

个人认为，完整模型在需要工具链的 Agent 任务上表现优于 MoE 模型。（未经验证）

2. 量化对 Agent 质量的影响

比较 Qwen3‑8B Q8 与 Qwen3‑8B Q4：Q4 变体出现了 工具调用重复循环，在 U03 中将 df -h && free -h 重复了六次。
这表明工具链的稳定性对量化水平非常敏感。

3. 速度 vs. 准确率的权衡

Model	准确率	速度
GPT‑oss‑20B	95 %（最快）	264 s – 明显优势
Qwen3.5‑27B	95 %（持平）	1 101 s – 适用于需要更深度的场景
Qwen3‑8B Q8	92 %	377 s – 每参数性能最佳，适合资源受限的环境

4. “链路完成”是关键差异化因素

大多数模型在中间步骤（搜索、分析）表现良好。
真正的差异化出现在 链路末端——发送邮件、保存文件、注册自动化任务。
Qwen3.5‑35B‑A3B 在这些最终步骤上表现尤为薄弱。

结论

选择本地 AI 代理的 LLM 时，需要评估的不仅是基准分数，还要综合考虑 工具链完成率、指令遵循度和响应速度。

🏆 总体最佳 – GPT‑oss‑20B（速度 + 准确性领袖）
💰 性价比最高 – Qwen3‑8B Q8（仅 8 B 参数，92 % 在 377 秒）
🔬 最深入分析 – Qwen3.5‑27B（在 4 项中获得最多 PERFECT 分数）

测试代码和完整结果可在以下位置获取

本地 LLM Agent 基准：在真实场景中比较 6 种模型

通过实际结果正确性而非仅工具调用存在来衡量 AI 代理性能

为什么我们构建了这个基准

测试环境

5 个真实场景测试（共 39 项检查）

U01. 🏦 全球资产再平衡顾问（9 项检查）

U02. 📊 实时技术趋势研究与报告（8 项检查）

U03. 🖥️ 服务器健康检查 + 自动恢复 + 警报（7 项检查）

U04. 🌍 旅行规划师（8 项检查）

U05. 🧬 代码分析 + 优化 + 部署（7 项检查）

验证方法：结果导向

2. 量化对 Agent 质量的影响

3. 速度 vs. 准确率的权衡

4. “链路完成”是关键差异化因素

结论

相关文章

当工作成为心理健康风险时

最难的部分不是隐形——而是被压平成一维

近视、外斜视与代码：为近视专业人士开发视觉训练工具

你的下一个数字产品有 89% 的几率恰好赚到 $0

通过实际结果正确性而非仅工具调用存在来衡量 AI 代理性能

为什么我们构建了这个基准

测试环境

5 个真实场景测试（共 39 项检查）

U01. 🏦 全球资产再平衡顾问（9 项检查）

U02. 📊 实时技术趋势研究与报告（8 项检查）

U03. 🖥️ 服务器健康检查 + 自动恢复 + 警报（7 项检查）

U04. 🌍 旅行规划师（8 项检查）

U05. 🧬 代码分析 + 优化 + 部署（7 项检查）

验证方法：结果导向

2. 量化对 Agent 质量的影响

3. 速度 vs. 准确率 的权衡

4. “链路完成”是关键差异化因素

结论

相关文章

当工作成为心理健康风险时

最难的部分不是隐形——而是被压平成一维

近视、外斜视与代码：为近视专业人士开发视觉训练工具

你的下一个数字产品有 89% 的几率恰好赚到 $0

3. 速度 vs. 准确率的权衡