为我和网络分析领域的同事选择本地AI模型
发布: (2026年2月17日 GMT+8 12:20)
3 分钟阅读
原文: Dev.to
Source: Dev.to
使用 C++ 开发,常常现场与客户合作。离线工作意味着无法访问 ChatGPT、Claude、Gemini 等。为弥补这一缺口,我尝试了几款本地大模型。下面是(仍然是个人的)我尝试过的、有效的以及无效的总结。
如何测试?
- 创建提示 – 我首先必须决定希望模型完成什么任务。
- 提取排名 – 我从分析器中提取“排名”,为每一列写了简短描述,并添加了如何解释表格的说明。
- 运行模型 – 将提示 + 表格数据输入 LLM,评估输出结果。
从 Google 到 “芝麻开门”
| 模型 | 初步印象 | 结果质量 | 备注 |
|---|---|---|---|
| Gemma‑3 (Google) | 多功能、快速、轻量(对我而言) | 表现良好,但有时会遗漏细节 | 最终放弃,因为偶尔出现错误或过度修改的答案。 |
| Qwen‑3 (thinking model) | 较慢,但质量远胜 Gemma‑3 | 始终准确 | 后来在可用时切换到指令变体。 |
| DeepSeek‑R1 | 失败 – 报告毫无意义。 | — | — |
| LG EXAOne | 尚可(与 Qwen‑3‑Instruct 相当) | 商业上不可用(许可证限制) | — |
“天哪,太慢了” – 进入 Mistral
Qwen‑3 思考模型给出了很好的答案,但生成时间非常长。我尝试关闭其“思考”模式,但开关无效。当 Qwen‑3‑Instruct 模型最终出现时,我把注意力转向了 Mistral AI。
| 模型 | 使用体验 |
|---|---|
| Mistral Small (years ago) | 令人失望。 |
| Mistral‑3 | 生成可靠的报告;很少遗漏指令细节(不同于 Gemma‑3)。 |
| DevStral‑Small 3.2 | 适合短代码片段;缺少 FIM(填空)但仍有用。 |
| Qwen‑3‑Coder | 每次都产生幻觉代码(不存在的类似 STL 的调用)。 |
| Qwen‑3‑Coder‑Next | 正确,但过于冗长——“文学化”的 C++ 对小项目没有价值。 |
注: 现在是韩国的农历新年假期(설날),我将暂时休息。希望大家喜欢新的配置!