[Paper] 只要剩下的必须为真:过滤驱动LLMs的推理,塑造多样性

发布: (2025年12月6日 GMT+8 02:56)
6 min read
原文: arXiv

Source: arXiv - 2512.05962v1

Overview

论文 “Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity” 对在推理任务上微调大语言模型(LLM)时广泛使用的强化学习(RL)提出挑战。作者指出,RL 隐式优化的 模式寻求 逆 KL 散度会导致模型输出多样性的崩塌,并提出一种基于过滤的办法,直接在精确度和覆盖率之间取得平衡。

Key Contributions

  • 通过过滤得到显式目标分布 – 删除错误答案,同时保留所有正确解的相对概率。
  • α‑散度框架 – 统一了模式寻求(逆 KL)和质量覆盖(正向 KL)目标,提供了一个单一的旋钮来权衡精确度与多样性。
  • Pareto‑最优的覆盖‑精确度权衡 – 在 Lean 定理证明基准上展示了最先进的结果,尤其提升了覆盖率(生成大量不同正确证明的能力)。
  • 理论洞见 – 将 RL 微调 LLM 时多样性丧失归因于逆 KL 的 “零强迫” 特性,并提供了原理性的替代方案。

Methodology

  1. 收集候选池 – 从预训练 LLM 生成大量可能的答案(例如证明步骤)。
  2. 过滤错误答案 – 使用外部验证器(定理证明器或分类器)仅保留正确的候选。剩余集合定义了 目标分布:每个正确答案保留其原始的相对可能性。
  3. 用 α‑散度近似目标 – 训练 LLM 最小化其当前输出分布与过滤后目标之间的 α‑散度。
    • 当 α → 0 时,目标表现为正向 KL(质量覆盖 → 高多样性)。
    • 当 α → 1 时,目标表现为逆 KL(模式寻求 → 高精确度)。
    • 中间的 α 值让实践者调节所需的平衡。
  4. 优化 – 作者使用简单的随机梯度下降循环,从模型中采样、按 α‑散度梯度重新加权并更新模型参数。无需 RL 的奖励塑形或策略梯度技巧。

Results & Findings

  • 覆盖率提升:在 Lean 定理证明套件上,所提方法比最好的基于 RL 的基线多生成 30 % 的不同正确证明。
  • 精确度保持:即使覆盖率更高,正确率仍与 RL 方法相当,验证了可控的权衡。
  • Pareto 前沿:通过调节 α,作者绘制出一条平滑曲线,支配了之前的所有方法——在给定精确度水平下,没有其他方法能够同时实现更高的覆盖率。
  • 消融实验:去除过滤步骤后,性能回落至类似 RL 的行为,凸显显式目标分布的重要性。

Practical Implications

  • 更稳健的代码生成工具 – 开发者可以获得更丰富的有效代码片段或查询改写,减少重复提示的需求。
  • 自动定理证明与形式验证 – 更高的覆盖率意味着验证器可以并行探索更多证明策略,加速验证流水线。
  • 聊天机器人答案多样性 – 客服机器人能够提供多种正确的解决方案(如故障排除步骤),而不牺牲准确性,从而提升用户体验。
  • 简化的微调流程 – α‑散度方法避免了 RL 的工程开销(奖励设计、策略梯度方差降低),更易集成到现有的 MLOps 工作流中。

Limitations & Future Work

  • 依赖可靠的过滤器 – 该方法假设存在能够准确标记正确与错误输出的外部验证器;噪声过滤器可能会削弱目标分布。
  • 候选生成的可扩展性 – 为过滤生成大量候选可能在词汇量极大或长文本任务上计算成本高。
  • 基准范围 – 实验聚焦于 Lean 定理证明基准;在代码合成、数学题求解或自然语言推理等更广泛任务上的评估仍待开展。
  • 未来方向 – 作者建议探索自适应 α 调度、整合学习型过滤器(如自一致模型),以及将该框架应用于多模态推理任务。

Authors

  • Germán Kruszewski
  • Pierre Erbacher
  • Jos Rozen
  • Marc Dymetman

Paper Information

  • arXiv ID: 2512.05962v1
  • Categories: cs.LG, cs.AI
  • Published: December 5, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »