2025 年如何将 AI 从派对技巧转变为生产工具

发布: (2026年1月5日 GMT+8 21:16)
10 min read
原文: Dev.to

Source: Dev.to

封面图片,标题为《2025 年如何将 AI 从派对技巧转变为生产工具》

本文博客由 Piotr Migdal 撰写。

概述

2025年开始的大胆实验在年底已成为行业标准。两种范式推动了这一转变:

  1. 推理模型 – 在回答前花费 token 进行思考。
  2. 代理工具使用 – 执行代码以与世界交互。

这篇关于软件工程中 LLM 的主观回顾涵盖了三个阶段:

  • 2025年上半年实验性突破,
  • 生产中的困境,代理往往过于混乱而难以使用,和
  • 当前实用、日常工具的现状。

2025 年上半年

一月

  • DeepSeek 发布了首个开源推理模型 DeepSeek‑R1,同时公开了模型权重和实现细节。它打破了 AI 将始终是专有模型寡头垄断的范式。此前我们只有 o1,它于 2024 年 9 月由 OpenAI 推出。

二月

  • Andrej Karpathy 创造了 “vibe coding” 这一术语,用来描述主要使用自然语言而非代码进行编程的方式。
  • OpenAI 发布了 GPT‑4.5 —— 真正的奇迹。虽然它是闭源的,且没有任何模型能够匹配其头脑风暴的能力(更直率、少保守、富有创意、可调节),但我仍然怀念它。它的使用成本较高(在 Cursor 中每次运行 2 美元),但 在高级翻译方面无可匹敌
  • OpenAI 推出了 Deep Research,该系统会进行多次搜索并对结果进行汇总。起初成本高且速度慢,但仍然为网页搜索节省了时间。
  • Anthropic 以研究预览的形式发布了用于代理式编程的命令行工具 Claude Code

三月

  • ARC‑AGI‑2 试图构建一个对 AI 来说不可解的测试。顶尖模型的表现约为 1 %。
  • OpenAI 发布了 4o Image Generation 模型,网络上充斥着宫崎骏风格的致敬作品。

四月

  • OpenAI 推出了 o4‑mini,这是一款既聪明又相对快速的推理模型。在一次简短的对话中,它向我解释了爱因斯坦的广义相对论——这是我在尝试多种方法仍未能理解的主题。

五月

  • Google 发布了 Veo 3,让我们能够生成有时难以与真实录像区分的视频。

六月

  • Gemini 2.5 Pro 让 Google 再次重返 AI 赛场。
  • 借助 Gemini 2.5 Flash,我们终于拥有了一款在摘要和数据抽取方面表现出色、且运行快速且成本低廉的模型。

七月

从全球成就到日常生产

而这仅仅是 2025 年的上半年。

进展伴随着显著的限制。我们看到了令人印象深刻的演示和突破,但它们常常在实际生产中失效:

  • 太慢或成本太高 – 早期的推理模型(o1)和网页搜索代理(Deep Research)虽然强大,却不适合日常循环使用。
  • 过度兴奋的 AI 代理 – 像早期的 Claude Code(搭配 Sonnet 3.7)这类工具,既可能修复你的代码,也可能把代码库弄得一团糟。
  • 恐怖谷现象 – 图像生成器(最初的 4o Image Generation 和 Nano Banana)能够生成惊艳的视觉效果,但在处理复杂指令或文字渲染时却不可靠。

潜力不可否认,但要将其转化为实际价值需要大量工作:事前进行深入的提示工程,事后进行严格的审计。这感觉更像是在管理一个需要持续监督的实习生,而不是与一位能干的同事合作。

对于那些忽视基准测试和炒作的务实者来说,计算方式很简单:工具是否提升了净效率? 一个能够完成任务的模型——本身已经是技术成就——如果在手动清理上花费的时间比它节省的时间更多,那它就是毫无价值的。

现在

2025年上半年取得的众多研究成果已成为日常工具。

推理已成主流

首个推理模型是 OpenAI o1,于 2024 年 12 月发布。得益于 DeepSeek‑R1,其他实验室得以跟进,使推理既更智能又更快速。如今所有主流模型都支持该功能,尤其是旗舰模型:

深度研究

过去在深度研究上成本高昂的工作,如今已成为任何主要 AI 提供商(如 ChatGPT、Google Gemini 等)提供的日常搜索能力。2025 年初的推理模型的峰值性能现在 更快且更便宜,使得“先思考后回答”成为大多数工作流的默认环节。

搜索增强型 AI

范式已经转变:搜索现在是一种 工具,可以迭代使用并与其他操作结合。现代模型不再胡乱幻觉;它们能够进行网络搜索并自行事实核查。

开源模型重返赛场

  • 2024年12月 – DeepSeek 发布了首个能够与专有产品竞争的开源模型。
  • 此后,更多模型相继出现:
模型链接
DeepSeek
Kimi‑K2 Thinking
MiniMax‑M1
GLM‑4.7
Mistral 3
OpenAI OSS models

AGI 基准

  • ARC‑AGI‑2
  • Humanity’s Last Exam (HLE)

截至2025年底的结果:

基准模型得分
HLE (Scale leaderboard)Gemini 3 Pro37 %
ARC‑AGI‑2 (leaderboard)Gemini 3 Pro>30 %
ARC‑AGI‑2Claude Opus 4.5~40 %
ARC‑AGI‑2GPT‑5.2>50 %

这些测试被设计为困难且持久,但它们被超越的速度快于预期。

Source:

代理式编码

  • Claude Code – 现在实际上是用于编码的通用人工智能(AGI)。它可以编写、运行和调试代码,调用外部 API,并与任何工作流集成。
    • 首次在 Hacker News 上被注意到:
    • 开发故事:“How Claude Code is built” 作者 Gergely Orosz –

模型演进

模型特点
Claude Sonnet 3.7笨拙,容易导致代码出错
Claude Sonnet 4更稳定,速度更快
Claude Opus 4更强大但更慢且成本更高
Claude Sonnet 4.5与 Opus 4 同等算力,速度快得多
Claude Opus 4.5与 Sonnet 4.5 同速,但更智能

你需要的条件: 强大的模型、长上下文窗口以及工具调用能力。使用 Opus 4.5 可以在快速迭代中获得高性能。

竞争工具

  • Codex CLI – OpenAI
  • Gemini CLI – Google
  • Cursor CLI – Cursor

Migrating CompileBench to Harbor: standardizing AI agent evals 中可以看到更广泛的评估。

图像生成

Nano Banana Pro

  • 超越概念艺术图像,生成 infographicscharts
  • 结果因网络搜索集成而在事实层面上是正确的。

您可以通过 AntigravityClaude Skills 将其嵌入到代理工作流中。

高级用法

AI 不再仅仅用于数学作业或竞赛式研究;它正成为 生产力伙伴

  • 量子计算研究员 Scott Aaronson
  • 菲尔兹奖得主 Terence Tao

他们都利用 AI 推动各自领域的前沿。错误仍然会发生,但在专家手中,这项技术会变得更聪明。

结论

2025 年是 AI 发展至今最为激烈的一年。许多曾经只在演示中出现的技术已经成为日常工作中的 标准工具

我仅仅触及了模型发布、演示和论文的表面。想要更深入了解,请查看:

  • 2025 LLM Year in Review by Andrej Karpathy –
  • 2025: The year in LLMs by Simon Willison –
  • AI News (daily newsletter) –

即使是我的工作围绕 AI,跟上这飞快的节奏也已是一项全职挑战。

Back to Blog

相关文章

阅读更多 »

欢迎来到2025 Wrapped 🚀

概述:在2025年,我们见证了技术领域的重大发布。AI变得更加强大,同时网络风险也在增加。FBI追回了超过6000万被盗……

CES 2026上最可疑的 AI 用途

让我们打赌宫崎骏会有多讨厌这个。你在今年的CES上摇动棍子都不可能不碰到AI装置,人工智能现在正……