通过循环语言模型实现潜在推理的规模化

发布: (2026年1月4日 GMT+8 05:34)
2 min read

Source: Hacker News

摘要

现代大语言模型(LLM)主要通过显式文本生成来“思考”,例如链式思考(CoT),这将推理推迟到后训练阶段,并且未充分利用预训练数据。我们提出并开源 Ouro(取名自递归的 Ouroboros),这是一系列预训练的循环语言模型(LoopLM),它们通过以下方式在预训练阶段就将推理嵌入其中:

  1. 在潜在空间中的迭代计算,
  2. 用于学习深度分配的熵正则化目标,以及
  3. 扩展至 7.7 T 令牌。

Ouro 1.4 B 和 2.6 B 模型在广泛基准测试中表现优越,能够匹配最高达 12 B 的最先进 LLM 的结果。通过受控实验,我们表明这种优势并非来源于更大的知识容量,而是源于更强的知识操作能力。我们还展示,LoopLM 产生的推理轨迹与最终输出的对齐程度高于显式的 CoT。

我们希望我们的结果能够展示 LoopLM 作为推理时代一种新颖的扩展方向的潜力。我们的模型可在此处获取:http://ouro-llm.github.io

Back to Blog

相关文章

阅读更多 »

为什么 Markdown 是更好 AI 的秘密

当前的网页抓取现状对 AI 已经失效。十年来,网页提取一直是一场关于 CSS selectors 和 DOM structures 的战争。我们编写了脆弱的抓取器,它们会崩溃。