为我和网络分析领域的同事选择本地AI模型

发布: (2026年2月17日 GMT+8 12:20)
3 分钟阅读
原文: Dev.to

Source: Dev.to

使用 C++ 开发,常常现场与客户合作。离线工作意味着无法访问 ChatGPT、Claude、Gemini 等。为弥补这一缺口,我尝试了几款本地大模型。下面是(仍然是个人的)我尝试过的、有效的以及无效的总结。

如何测试?

  1. 创建提示 – 我首先必须决定希望模型完成什么任务。
  2. 提取排名 – 我从分析器中提取“排名”,为每一列写了简短描述,并添加了如何解释表格的说明。
  3. 运行模型 – 将提示 + 表格数据输入 LLM,评估输出结果。

从 Google 到 “芝麻开门”

模型初步印象结果质量备注
Gemma‑3 (Google)多功能、快速、轻量(对我而言)表现良好,但有时会遗漏细节最终放弃,因为偶尔出现错误或过度修改的答案。
Qwen‑3 (thinking model)较慢,但质量远胜 Gemma‑3始终准确后来在可用时切换到指令变体。
DeepSeek‑R1失败 – 报告毫无意义。
LG EXAOne尚可(与 Qwen‑3‑Instruct 相当)商业上不可用(许可证限制)

“天哪,太慢了” – 进入 Mistral

Qwen‑3 思考模型给出了很好的答案,但生成时间非常长。我尝试关闭其“思考”模式,但开关无效。当 Qwen‑3‑Instruct 模型最终出现时,我把注意力转向了 Mistral AI。

模型使用体验
Mistral Small (years ago)令人失望。
Mistral‑3生成可靠的报告;很少遗漏指令细节(不同于 Gemma‑3)。
DevStral‑Small 3.2适合短代码片段;缺少 FIM(填空)但仍有用。
Qwen‑3‑Coder每次都产生幻觉代码(不存在的类似 STL 的调用)。
Qwen‑3‑Coder‑Next正确,但过于冗长——“文学化”的 C++ 对小项目没有价值。

注: 现在是韩国的农历新年假期(설날),我将暂时休息。希望大家喜欢新的配置!

0 浏览
Back to Blog

相关文章

阅读更多 »

AI 编码工具:为什么开发者意见不合

AI‑Coding“辩论”并非真正的辩论 你会听到两个截然不同的故事: 朋友的创业公司创始人——“我们的团队现在使用 AI,功能发布速度提升了一倍。我是 e...”

谁在招聘 — 2026年2月

在以开发者为先的公司开放职位:产品工程师、Developer advocates 或 Community builders?以全新的 dev tools 机会开启新的一年。