通过循环语言模型实现潜在推理的规模化
发布: (2026年1月4日 GMT+8 05:34)
2 min read
原文: Hacker News
Source: Hacker News
摘要
现代大语言模型(LLM)主要通过显式文本生成来“思考”,例如链式思考(CoT),这将推理推迟到后训练阶段,并且未充分利用预训练数据。我们提出并开源 Ouro(取名自递归的 Ouroboros),这是一系列预训练的循环语言模型(LoopLM),它们通过以下方式在预训练阶段就将推理嵌入其中:
- 在潜在空间中的迭代计算,
- 用于学习深度分配的熵正则化目标,以及
- 扩展至 7.7 T 令牌。
Ouro 1.4 B 和 2.6 B 模型在广泛基准测试中表现优越,能够匹配最高达 12 B 的最先进 LLM 的结果。通过受控实验,我们表明这种优势并非来源于更大的知识容量,而是源于更强的知识操作能力。我们还展示,LoopLM 产生的推理轨迹与最终输出的对齐程度高于显式的 CoT。
我们希望我们的结果能够展示 LoopLM 作为推理时代一种新颖的扩展方向的潜力。我们的模型可在此处获取:http://ouro-llm.github.io