【论文】通用推理模型

发布: 1个月前 (2025年12月17日 GMT+8 02:58)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.14693v1

概述

本文介绍了 Universal Reasoning Model (URM)，它是对流行的 Universal Transformer (UT) 架构的精简而强大的升级。通过剖析 UT 在诸如 ARC‑AGI 等艰难推理基准上表现出色的原因，作者精准定位了循环归纳偏置和 Transformer 的非线性深度是实际的性能驱动因素——随后构建了一个更简洁、更快速的模型，打破了之前的最先进分数。

关键贡献

系统性拆解 UT 变体 – 表明大多数提升来自递归和非线性深度，而非复杂的架构技巧。
URM 设计 – 在普通 UT 上添加两个轻量级组件：(1) 短程卷积层和 (2) 截断的时间反向传播 (TBPTT)。
领先的实验结果 – 在 ARC‑AGI 1 上达到 53.8 % pass@1，在 ARC‑AGI 2 上达到 16.0 % pass@1，显著超越之前的模型。
开源实现 – 代码已在 GitHub 上发布，便于复现和快速实验。

方法论

基线分析 – 作者在 ARC‑AGI 推理套件上训练了多个 UT 配置（不同深度、递归调度、前馈规模），并测量性能提升出现的部位。
识别核心要素 – 实验表明，递归处理同一隐藏状态跨层以及 强非线性 前馈块是主要因素。
设计 URM
- 短卷积：在每个递归步骤后插入一个 1‑D 卷积，使用极小的核（例如大小 3），为模型提供一种低成本捕获局部 token 交互的方式，而不会膨胀参数量。
- 截断反向传播：不是对整个递归链进行反向传播，而是在固定步数后截断梯度（TBPTT）。这降低了内存使用并加快了训练，同时保留了大部分递归收益。
训练流程 – 在合成推理数据上进行标准语言模型式的预训练，随后在 ARC‑AGI 任务上进行微调。超参数（递归深度、截断长度、卷积核）在保留的验证集上进行调优。

结果与发现

基准	之前的 SOTA	URM（本工作）	相对提升
ARC‑AGI 1 (pass@1)	~45 %	53.8 %	+8.8 %
ARC‑AGI 2 (pass@1)	~12 %	16.0 %	+4 %

效率：URM 使用的参数约比表现最佳的 UT 变体少 ~30 %，并且得益于 TBPTT，训练速度提升约 25 %。
消融实验：移除短卷积会导致性能下降约 2 %（绝对值）；禁用 TBPTT（完整反向传播）虽有轻微提升，但会大幅增加内存开销，验证了设计权衡。
泛化能力：该模型在数独及其他逻辑谜题上也有适度提升，表明其优势超出 ARC‑AGI 的范围。

实际意义

更便宜的推理引擎 – 开发者可以在下游系统中嵌入 URM（例如，自动化辅导、代码生成助手），而无需大型基于 Transformer 的推理器通常需要的大量 GPU 预算。
即插即用升级 – 由于 URM 基于原始 UT 构建，已经使用 UT 的现有流水线可以通过最少的代码更改采用卷积 + TBPTT 的调整。
更快的迭代周期 – 截断的反向传播显著降低了训练内存需求，使得在单 GPU 工作站上能够快速原型开发。
混合 AI 体系的潜力 – URM 的轻量特性使其成为设备端推理的良好候选（例如，机器人边缘 AI），在这些场景下全尺度的 Transformer 并不实用。

限制与未来工作

基准范围 – 本研究主要聚焦于 ARC‑AGI；仍需在更广泛的推理数据集（如 CLUTRR、MathQA）上进行评估，以确认其普遍适用性。
截断权衡 – 虽然 TBPTT 能节省内存，但可能限制模型捕获极长距离依赖的能力；自适应截断策略或许可以缓解此问题。
卷积范围 – 当前的短卷积是固定大小的；探索动态或膨胀卷积核可能在不显著增加参数的情况下进一步提升局部推理能力。
可解释性 – 准确理解新增卷积如何与循环 Transformer 动力学交互仍是一个未解的研究问题。

作者已公开代码，感兴趣的开发者可以立即开始尝试 URM。

作者

Zitian Gao
Lynx Chen
Yihao Xiao
He Xing
Ran Tao
Haoming Luo
Joey Zhou
Bryan Dai

论文信息

arXiv ID: 2512.14693v1
分类: cs.AI
发表日期: 2025年12月16日
PDF: 下载 PDF

【论文】通用推理模型

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 开放基础模型中视觉的对抗鲁棒性

[Paper] 当推理遇到其法则

[Paper] 分布鲁棒模仿学习：用于可认证自主性的层次控制架构