为我和网络分析领域的同事选择本地AI模型

发布: 2个月前 (2026年2月17日 GMT+8 12:20)

3 分钟阅读

原文: Dev.to

Source: Dev.to

使用 C++ 开发，常常现场与客户合作。离线工作意味着无法访问 ChatGPT、Claude、Gemini 等。为弥补这一缺口，我尝试了几款本地大模型。下面是（仍然是个人的）我尝试过的、有效的以及无效的总结。

如何测试？

创建提示 – 我首先必须决定希望模型完成什么任务。
提取排名 – 我从分析器中提取“排名”，为每一列写了简短描述，并添加了如何解释表格的说明。
运行模型 – 将提示 + 表格数据输入 LLM，评估输出结果。

从 Google 到 “芝麻开门”

模型	初步印象	结果质量	备注
Gemma‑3 (Google)	多功能、快速、轻量（对我而言）	表现良好，但有时会遗漏细节	最终放弃，因为偶尔出现错误或过度修改的答案。
Qwen‑3 (thinking model)	较慢，但质量远胜 Gemma‑3	始终准确	后来在可用时切换到指令变体。
DeepSeek‑R1	失败 – 报告毫无意义。	—	—
LG EXAOne	尚可（与 Qwen‑3‑Instruct 相当）	商业上不可用（许可证限制）	—

“天哪，太慢了” – 进入 Mistral

Qwen‑3 思考模型给出了很好的答案，但生成时间非常长。我尝试关闭其“思考”模式，但开关无效。当 Qwen‑3‑Instruct 模型最终出现时，我把注意力转向了 Mistral AI。

模型	使用体验
Mistral Small (years ago)	令人失望。
Mistral‑3	生成可靠的报告；很少遗漏指令细节（不同于 Gemma‑3）。
DevStral‑Small 3.2	适合短代码片段；缺少 FIM（填空）但仍有用。
Qwen‑3‑Coder	每次都产生幻觉代码（不存在的类似 STL 的调用）。
Qwen‑3‑Coder‑Next	正确，但过于冗长——“文学化”的 C++ 对小项目没有价值。

注：现在是韩国的农历新年假期（설날），我将暂时休息。希望大家喜欢新的配置！

相关文章

阅读更多 »

用于构建自主 AI 队友的 Python SDK

概览 - 支持在150+最流行的SaaS应用中进行操作和获取知识 - 支持自动化的计划运行 - 向代理发送电子邮件以委派任务 - Tri...

数字主权的幻觉：为何供应商更换不是合规策略

封面图片：《The Illusion of Digital Sovereignty：Why Vendor Swapping is Not a Compliance Strategy》 https://media2.dev.to/dynamic/image/width=1000,height=420,...

热情引荐

介绍大家好！我对这里的 deep tech 讨论感到着迷。看到社区蓬勃发展，真的很惊喜。项目概述我充满热情……

Visual Studio Weekly：Copilot 记忆、AI 驱动的测试和自定义代理

请提供完整的要翻译的摘录或摘要内容，以便我为您进行简体中文翻译。