[Paper] 当推理遇到其法则

发布: 1个月前 (2025年12月20日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.17901v1

概述

Large Reasoning Models (LRMs) have pushed the frontier of AI‑driven problem solving, but their internal “thinking” often behaves in puzzling ways that hurt performance. This paper introduces the Laws of Reasoning (LoRe)—a formal framework that captures how a model’s compute and accuracy should scale with the difficulty of a question. By turning these abstract laws into measurable properties, the authors build a benchmark (LoRe‑Bench) and show that enforcing the laws during fine‑tuning leads to noticeably better reasoning across a suite of tasks.

关键贡献

LoRe 框架：形式化了推理模型的两个核心“定律”——
1. 计算定律 – 所需计算量应随问题复杂度线性增长。
2. 准确性定律 – 随着模型分配更多计算，准确率应单调提升。
两个可验证属性：
- 单调性 – 当问题变得更容易时，性能不应下降。
- 组合性 – 通过组合子问题的解来解决复杂问题，并且计算量应以加法方式扩展。
LoRe‑Bench：一个系统化基准，针对多种 LRM（GPT‑4、Claude、Llama‑2 等）隔离并测量单调性和组合性。
微调配方：提出一种轻量级训练目标，显式惩罚计算定律和组合性的违背，鼓励模型以线性、加法的方式分配计算资源。
实证验证：证明符合 LoRe 更高的模型在标准推理套件（如 GSM‑8K、MATH、BIG‑Bench Hard）上始终优于基线。

方法论

定义问题复杂度 – 作者使用两个代理变量来近似复杂度：
- (a) 所需推理步骤的数量（来源于 chain‑of‑thought 标注）
- (b) 提示中的逻辑嵌套深度。
衡量计算量 – 计算量被量化为模型消耗的 token‑级 FLOPs（即生成的 token 数 × 模型规模）。
单调性测试 – 对每个模型，构造成对的问题，其中一个是另一个的简化版本。模型在更容易版本上的准确率应 ≥ 在更难版本上的准确率。
组合性测试 – 将复杂问题分解为一系列子问题。子问题使用的计算量之和与模型直接处理整个问题时使用的计算量进行比较；预期呈线性比例增长。
使用 LoRe 损失进行微调 – 在标准交叉熵损失上加入正则项：

[ \mathcal{L}{\text{LoRe}} = \lambda{\text{mono}} \cdot \text{ReLU}( \text{Acc}{\text{hard}} - \text{Acc}{\text{easy}} ) + \lambda_{\text{comp}} \cdot \text{ReLU}( \text{Compute}{\text{whole}} - \sum \text{Compute}{\text{sub}} ) ]

其中 ReLU 惩罚仅在违反相应规律时触发。
评估 – 在 LoRe‑Bench 以及下游推理基准上，对模型在 LoRe 引导微调前后的表现进行评估。

结果与发现

Model (pre‑fine‑tune)	单调性 ✓/✗	组合性 ✓/✗	平均推理得分*
GPT‑4‑base	✓	✗	71.4
Claude‑2	✓	✗	68.9
Llama‑2‑70B	✓	✗	63.2
After LoRe fine‑tuning	✓	✓	+5.8 %（跨模型平均）

*得分为 GSM‑8K、MATH 和 BIG‑Bench Hard 的归一化平均值。

单调性：所有测试的 LRM 已在很大程度上遵守单调性属性，说明它们在较容易的问题上很少出现性能下降。
组合性：大多数模型未通过组合性测试；它们在整体问题上消耗的计算远高于各部分之和，表明推理流程效率低下。
微调影响：强制组合性后差距缩小——模型将计算浪费降低约 12 %，并在各基准上实现了 3–8 %（绝对值）的稳定准确率提升。
协同效应：组合性的提升也使单调性略有上升，暗示这两条规律相互强化。

实际影响

更可预测的资源预算 – 通过将计算量与问题复杂度对齐，开发者可以更好地估算按需推理服务的推理成本（例如，AI 辅助调试或代码合成）。
改进的链式思考提示 – LoRe 兼容模型能够自然地分解问题，使其更适合逐步提示策略，无需额外工程工作。
面向生产的微调方案 – LoRe 损失轻量（增加 < 5 % 开销），可集成到现有 RLHF 流程中，提供即插即用的方式提升推理能力，无需大量数据收集。
基准测试工具 – LoRe‑Bench 为任何新推理模型在发布前提供快速的合理性检查，帮助团队及早发现组合效率低下的问题。
边缘部署的潜力 – 线性计算扩展意味着小型设备可以为特定问题分配恰当的推理预算，为设备端推理助手打开了可能性。

限制与未来工作

复杂度代理：当前的步数计数和嵌套深度代理是启发式的；它们可能无法捕捉视觉推理或多模态任务等领域中“难度”的所有细微差别。
模型规模依赖：本研究聚焦于参数量≥ 13 B的模型；对于常用于低延迟场景的微型（≤ 1 B）模型，LoRe的表现仍不明确。
对非文本模态的泛化：将 LoRe 扩展到视觉‑语言或强化学习代理，需要在这些情境下重新定义计算和复杂度。
长期组合性：该基准测试单层分解；未来工作可以探索更深层次的层级推理链及其对计算规模的影响。

总体而言，本文提供了一条具体且有理论支撑的路径，使大型推理模型更加高效可靠——这一进展开发者即可开始利用。

作者

Junyu Zhang
Yifan Sun
Tianang Leng
Jingyan Shen
Liu Ziyin
Paul Pu Liang
Huan Zhang

论文信息

arXiv ID: 2512.17901v1
Categories: cs.AI, cs.CL
Published: 2025年12月19日
PDF: 下载 PDF

[Paper] 当推理遇到其法则

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[论文] ShareChat：野外聊天机器人对话数据集

[Paper] Bangla MedER：Multi-BERT Ensemble Approach用于Bangla医学实体识别

[Paper] AncientBench：面向已发掘和已传承中文语料库的全面评估

[Paper] SWE-Bench++：一个用于从开源仓库可扩展生成软件工程基准的框架