LLM 年度回顾

发布: (2025年12月20日 GMT+8 04:49)
13 min read

Source: Hacker News
2025年12月19日

未命名

1. 可验证奖励强化学习 (RLVR)

在 2025 年初,所有实验室的 LLM 生产栈大致如下:

  • 预训练(GPT‑2/3,约 2020 年)
  • 监督微调(InstructGPT,约 2022 年)
  • 基于人类反馈的强化学习(RLHF,约 2022 年)

这套稳定且经过验证的配方曾经支撑了生产级 LLM 的训练一段时间。到了 2025 年,可验证奖励强化学习 (RLVR) 成为事实上的新阶段,被加入到这一组合中。通过在多个环境(例如数学/代码谜题)中使用自动可验证的奖励来训练 LLM,模型会自发地发展出人类眼中类似“推理”的策略——它们学会将问题求解拆解为中间计算,并来回迭代以找到答案(参见 DeepSeek R1 论文中的示例)。

在之前的范式中,这些策略很难实现,因为当时并不清楚 LLM 的最佳推理轨迹和恢复方式是什么;模型必须通过对奖励的优化自行发现有效的做法。

与相对薄弱/短暂(计算量小)的 SFT 与 RLHF 阶段不同,RLVR 涉及针对 客观(不可游戏)的奖励函数 进行训练,从而允许更长时间的优化。运行 RLVR 被证明能够提供高能力 / 低成本的效率,这吞噬了原本用于预训练的算力。因此,2025 年的大部分能力提升都是由实验室在这一新阶段的“剩余算力”上进行大量训练所驱动的——我们看到了规模相似的 LLM,但其 RL 训练时间显著更长。

同时出现了一个独特的调节参数(以及相应的尺度定律):通过生成更长的推理轨迹并增加“思考时间”,可以控制测试时算力下的能力。OpenAI o1(2024 年底)是首个 RLVR 模型的示例,但 o3(2025 年初)的发布则是一个显著的拐点,使得这种差异在直观上变得可感知。

2. 鬼魂 vs. 动物 / 锯齿状智能

2025 年是我(以及我认为整个行业)首次在更直观的层面上内化 LLM 智能的“形状”。我们并不是在“进化/培养动物”;我们在“召唤鬼魂”。LLM 堆栈的每个方面都不同(神经架构、训练数据、训练算法,尤其是优化压力),因此我们在智能空间中得到的实体截然不同——用动物的视角来思考它们是不恰当的。

在监督方面,人类神经网络是为部落在丛林中的生存而优化的,而 LLM 神经网络则是为模仿人类文本、在数学谜题中收集奖励、以及在 LM Arena 上获得人类的点赞而优化的。随着可验证领域允许进行 RLVR,LLM 在这些领域附近的能力会出现“尖峰”,整体表现出有趣的锯齿状特征——它们既是天才的全才,又是困惑的、认知受限的小学生,随时可能被 jailbreak 诱骗而泄露你的数据。

人类智能:蓝色,AI 智能:红色。我喜欢这个版本的 meme(抱歉我找不到它在 X 上的原始帖子的引用),它指出人类智能也以自己独特的方式呈锯齿状。

与此相关的是我在 2025 年对基准测试的普遍冷漠和信任缺失。核心问题在于,基准测试本质上是可验证的环境,因此立即容易受到 RLVR——以及其较弱形式——通过合成数据生成的影响。在典型的基准最大化过程中,LLM 实验室的团队不可避免地在基准占据的嵌入空间的小口袋附近构造环境,并生成“锯齿”来覆盖它们。对测试集进行训练已经成为一种新艺术形式。

把所有基准都压垮却仍未达到 AGI 会是什么样子?

我在以下文章中对本节主题有更深入的阐述:

3. Cursor / LLM 应用的新层

我觉得 Cursor 最引人注目的地方(除了它今年的快速崛起)在于它有力地展示了“LLM 应用”的新层——人们开始谈论 “Cursor for X”。正如我在今年的 Y Combinator 演讲中强调的那样(文字稿视频),像 Cursor 这样的 LLM 应用会为特定垂直领域捆绑并编排 LLM 调用:

  • 它们处理 上下文工程
  • 它们在底层 编排多个 LLM 调用,将其串成日益复杂的 DAG,仔细平衡性能和成本的权衡。
  • 它们为人机交互提供 面向特定应用的 GUI
  • 它们提供一个 “自主性滑块”。

2025 年关于这一新应用层到底有多“厚”已经有很多讨论。LLM 实验室会捕获所有应用,还是会有适合 LLM 应用的绿洲?我个人怀疑,LLM 实验室更倾向于培养通用的“大学生”型模型,而 LLM 应用则会组织、微调,并真正让这些模型在特定垂直领域中形成部署的专业团队。

4. Claude Code / 在你的电脑上运行的 AI

Claude Code(CC)是首次令人信服的 LLM 代理示例——一个以循环方式将工具使用和推理串联起来,以进行长期问题解决的系统。

为什么 CC 很重要

  • 本地运行。 它在 你的 电脑上运行,使用你的私有环境、数据和上下文。
  • 本地优先设计。 与 OpenAI 以云为中心的 Codex/agent 方法(从 ChatGPT 编排容器)不同,CC 采用“在你的机器上运行”的模型。
  • 中间、慢启动的世界。 在能力参差不齐的环境中,将代理与开发者及其特定配置手拉手一起运行,往往比依赖大型云端群体(感觉像是“AGI 终局”)更为合理。

CC 与众不同之处

CC 正确地确定了优先级顺序,并将其包装成 美观、简洁且引人入胜的 CLI 形态。这把 AI 的认知从“像 Google 那样访问的网站”转变为 一个居住在你电脑上的小灵魂/幽灵——一种全新的交互范式。

5. Vibe 编码

2025 年是人工智能跨越了一个能力阈值的年份,凭借英语就能构建各种令人印象深刻的程序,仿佛代码根本不存在。有趣的是,我在这条灵感迸发的推文中创造了**“vibe coding”**这个术语,完全没有预料到它会走得多远。

通过 vibe coding,编程不再仅限于受过高度训练的专业人士;它是任何人都可以做的事。在这种情况下,它再次印证了我在Power to the people: How LLMs flip the script on technology diffusion中所写的观点,即与迄今为止的所有其他技术形成鲜明对比,普通人从大型语言模型中获益远远超过专业人士、企业和政府。

但 vibe coding 的作用不仅是赋能普通人接触编程——它还让受过训练的专业人士能够编写更多(vibe‑coded)软件,而这些软件原本可能永远不会被写出来。

  • nanochat 中,我使用 vibe‑coding 用 Rust 编写了自己的自定义、高效的 BPE 分词器,而不是采用现有库或在那个层次上学习 Rust。
  • 今年,我使用 vibe‑coding 开发了许多项目,作为我想要实现的事物的快速应用演示,例如:
  • 我甚至使用 vibe‑coding 编写了完整的短暂应用,仅仅是为了找出一个 bug——为什么不呢?代码瞬间变得免费、短暂、可塑,并且在一次使用后即可丢弃。

Vibe coding 将改造软件生态,并改变职业描述。

6. Nano Banana / LLM GUI

Google Gemini Nano banana 是 2025 年最令人惊叹、颠覆性范式的模型之一。在我的世界观中,LLM 是下一代重要的计算范式,类似于 1970‑80 年代的个人电脑。因此,出于根本相同的原因,我们将看到类似的创新:个人计算、微控制器(认知核心)、代理的“互联网”等。

UI/UX 视角

  • 如今与 LLM “聊天”有点像在 1980 年代的计算机终端上输入指令。
  • 文本是计算机(以及 LLM)最原始/首选的数据表示形式,但它 并不是 人类,尤其是输入时的首选格式。
  • 人们不喜欢阅读大段文字——这既慢又费力。相反,他们更喜欢以 视觉和空间 的方式获取信息,这也是传统计算中 GUI 被发明的原因。

同理,LLM 应该以我们偏好的格式与我们交流——图像、信息图、幻灯片、白板、动画/视频、Web 应用等。早期和当前的实现形式包括表情符号和 Markdown,它们通过标题、粗体、斜体、列表、表格等“装饰”文本。

谁会构建 LLM GUI? 在这种世界观下,Nano banana 是对未来可能模样的最早提示之一。重要的是,这不仅仅是图像生成,而是文本生成、图像生成和世界知识在模型权重中交织而成的联合能力。

TL;DR

2025 年对大型语言模型(LLM)来说是激动人心且略有惊喜的一年。它们正崭露头角,成为一种全新的智能——同时比我预期的更聪明 更愚蠢。无论如何,它们极其有用,我认为业界目前仅实现了其潜力的不到 10 %。

有太多想法值得尝试,从概念上看,这个领域似乎前景广阔。正如我在今年早些时候的 Dwarkesh pod 中提到的,我同时(且矛盾地)相信我们将看到快速且持续的进展 并且 仍有大量工作要完成。

系好安全带。

Back to Blog

相关文章

阅读更多 »

LLM 不是生成式 AI

LLM的封面图不是Gen AI。https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3....