2025 年如何将 AI 从派对技巧转变为生产工具
Source: Dev.to

本文博客由 Piotr Migdal 撰写。
概述
2025年开始的大胆实验在年底已成为行业标准。两种范式推动了这一转变:
- 推理模型 – 在回答前花费 token 进行思考。
- 代理工具使用 – 执行代码以与世界交互。
这篇关于软件工程中 LLM 的主观回顾涵盖了三个阶段:
- 2025年上半年实验性突破,
- 生产中的困境,代理往往过于混乱而难以使用,和
- 当前实用、日常工具的现状。
2025 年上半年
一月
- DeepSeek 发布了首个开源推理模型 DeepSeek‑R1,同时公开了模型权重和实现细节。它打破了 AI 将始终是专有模型寡头垄断的范式。此前我们只有 o1,它于 2024 年 9 月由 OpenAI 推出。
二月
- Andrej Karpathy 创造了 “vibe coding” 这一术语,用来描述主要使用自然语言而非代码进行编程的方式。
- OpenAI 发布了 GPT‑4.5 —— 真正的奇迹。虽然它是闭源的,且没有任何模型能够匹配其头脑风暴的能力(更直率、少保守、富有创意、可调节),但我仍然怀念它。它的使用成本较高(在 Cursor 中每次运行 2 美元),但 在高级翻译方面无可匹敌。
- OpenAI 推出了 Deep Research,该系统会进行多次搜索并对结果进行汇总。起初成本高且速度慢,但仍然为网页搜索节省了时间。
- Anthropic 以研究预览的形式发布了用于代理式编程的命令行工具 Claude Code。
三月
- ARC‑AGI‑2 试图构建一个对 AI 来说不可解的测试。顶尖模型的表现约为 1 %。
- OpenAI 发布了 4o Image Generation 模型,网络上充斥着宫崎骏风格的致敬作品。
四月
- OpenAI 推出了 o4‑mini,这是一款既聪明又相对快速的推理模型。在一次简短的对话中,它向我解释了爱因斯坦的广义相对论——这是我在尝试多种方法仍未能理解的主题。
五月
- Google 发布了 Veo 3,让我们能够生成有时难以与真实录像区分的视频。
六月
- Gemini 2.5 Pro 让 Google 再次重返 AI 赛场。
- 借助 Gemini 2.5 Flash,我们终于拥有了一款在摘要和数据抽取方面表现出色、且运行快速且成本低廉的模型。
七月
- DeepMind 在国际数学奥林匹克中取得了 金牌水平的表现。
从全球成就到日常生产
而这仅仅是 2025 年的上半年。
进展伴随着显著的限制。我们看到了令人印象深刻的演示和突破,但它们常常在实际生产中失效:
- 太慢或成本太高 – 早期的推理模型(o1)和网页搜索代理(Deep Research)虽然强大,却不适合日常循环使用。
- 过度兴奋的 AI 代理 – 像早期的 Claude Code(搭配 Sonnet 3.7)这类工具,既可能修复你的代码,也可能把代码库弄得一团糟。
- 恐怖谷现象 – 图像生成器(最初的 4o Image Generation 和 Nano Banana)能够生成惊艳的视觉效果,但在处理复杂指令或文字渲染时却不可靠。
潜力不可否认,但要将其转化为实际价值需要大量工作:事前进行深入的提示工程,事后进行严格的审计。这感觉更像是在管理一个需要持续监督的实习生,而不是与一位能干的同事合作。
对于那些忽视基准测试和炒作的务实者来说,计算方式很简单:工具是否提升了净效率? 一个能够完成任务的模型——本身已经是技术成就——如果在手动清理上花费的时间比它节省的时间更多,那它就是毫无价值的。
现在
2025年上半年取得的众多研究成果已成为日常工具。
推理已成主流
首个推理模型是 OpenAI o1,于 2024 年 12 月发布。得益于 DeepSeek‑R1,其他实验室得以跟进,使推理既更智能又更快速。如今所有主流模型都支持该功能,尤其是旗舰模型:
深度研究
过去在深度研究上成本高昂的工作,如今已成为任何主要 AI 提供商(如 ChatGPT、Google Gemini 等)提供的日常搜索能力。2025 年初的推理模型的峰值性能现在 更快且更便宜,使得“先思考后回答”成为大多数工作流的默认环节。
搜索增强型 AI
范式已经转变:搜索现在是一种 工具,可以迭代使用并与其他操作结合。现代模型不再胡乱幻觉;它们能够进行网络搜索并自行事实核查。
开源模型重返赛场
- 2024年12月 – DeepSeek 发布了首个能够与专有产品竞争的开源模型。
- 此后,更多模型相继出现:
| 模型 | 链接 |
|---|---|
| DeepSeek | |
| Kimi‑K2 Thinking | |
| MiniMax‑M1 | |
| GLM‑4.7 | |
| Mistral 3 | |
| OpenAI OSS models |
AGI 基准
- ARC‑AGI‑2 –
- Humanity’s Last Exam (HLE) –
截至2025年底的结果:
| 基准 | 模型 | 得分 |
|---|---|---|
| HLE (Scale leaderboard) | Gemini 3 Pro | 37 % |
| ARC‑AGI‑2 (leaderboard) | Gemini 3 Pro | >30 % |
| ARC‑AGI‑2 | Claude Opus 4.5 | ~40 % |
| ARC‑AGI‑2 | GPT‑5.2 | >50 % |
这些测试被设计为困难且持久,但它们被超越的速度快于预期。
Source: …
代理式编码
- Claude Code – 现在实际上是用于编码的通用人工智能(AGI)。它可以编写、运行和调试代码,调用外部 API,并与任何工作流集成。
- 首次在 Hacker News 上被注意到:
- 开发故事:“How Claude Code is built” 作者 Gergely Orosz –
模型演进
| 模型 | 特点 |
|---|---|
| Claude Sonnet 3.7 | 笨拙,容易导致代码出错 |
| Claude Sonnet 4 | 更稳定,速度更快 |
| Claude Opus 4 | 更强大但更慢且成本更高 |
| Claude Sonnet 4.5 | 与 Opus 4 同等算力,速度快得多 |
| Claude Opus 4.5 | 与 Sonnet 4.5 同速,但更智能 |
你需要的条件: 强大的模型、长上下文窗口以及工具调用能力。使用 Opus 4.5 可以在快速迭代中获得高性能。
竞争工具
- Codex CLI – OpenAI
- Gemini CLI – Google
- Cursor CLI – Cursor
在 Migrating CompileBench to Harbor: standardizing AI agent evals 中可以看到更广泛的评估。
图像生成
Nano Banana Pro –
- 超越概念艺术图像,生成 infographics 和 charts。
- 结果因网络搜索集成而在事实层面上是正确的。
您可以通过 Antigravity 或 Claude Skills 将其嵌入到代理工作流中。
高级用法
AI 不再仅仅用于数学作业或竞赛式研究;它正成为 生产力伙伴。
- 量子计算研究员 Scott Aaronson –
- 菲尔兹奖得主 Terence Tao –
他们都利用 AI 推动各自领域的前沿。错误仍然会发生,但在专家手中,这项技术会变得更聪明。
结论
2025 年是 AI 发展至今最为激烈的一年。许多曾经只在演示中出现的技术已经成为日常工作中的 标准工具。
我仅仅触及了模型发布、演示和论文的表面。想要更深入了解,请查看:
- 2025 LLM Year in Review by Andrej Karpathy –
- 2025: The year in LLMs by Simon Willison –
- AI News (daily newsletter) –
即使是我的工作围绕 AI,跟上这飞快的节奏也已是一项全职挑战。