[Paper] 只要剩下的必须为真:过滤驱动LLMs的推理,塑造多样性
发布: (2025年12月6日 GMT+8 02:56)
6 min read
原文: arXiv
Source: arXiv - 2512.05962v1
Overview
论文 “Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity” 对在推理任务上微调大语言模型(LLM)时广泛使用的强化学习(RL)提出挑战。作者指出,RL 隐式优化的 模式寻求 逆 KL 散度会导致模型输出多样性的崩塌,并提出一种基于过滤的办法,直接在精确度和覆盖率之间取得平衡。
Key Contributions
- 通过过滤得到显式目标分布 – 删除错误答案,同时保留所有正确解的相对概率。
- α‑散度框架 – 统一了模式寻求(逆 KL)和质量覆盖(正向 KL)目标,提供了一个单一的旋钮来权衡精确度与多样性。
- Pareto‑最优的覆盖‑精确度权衡 – 在 Lean 定理证明基准上展示了最先进的结果,尤其提升了覆盖率(生成大量不同正确证明的能力)。
- 理论洞见 – 将 RL 微调 LLM 时多样性丧失归因于逆 KL 的 “零强迫” 特性,并提供了原理性的替代方案。
Methodology
- 收集候选池 – 从预训练 LLM 生成大量可能的答案(例如证明步骤)。
- 过滤错误答案 – 使用外部验证器(定理证明器或分类器)仅保留正确的候选。剩余集合定义了 目标分布:每个正确答案保留其原始的相对可能性。
- 用 α‑散度近似目标 – 训练 LLM 最小化其当前输出分布与过滤后目标之间的 α‑散度。
- 当 α → 0 时,目标表现为正向 KL(质量覆盖 → 高多样性)。
- 当 α → 1 时,目标表现为逆 KL(模式寻求 → 高精确度)。
- 中间的 α 值让实践者调节所需的平衡。
- 优化 – 作者使用简单的随机梯度下降循环,从模型中采样、按 α‑散度梯度重新加权并更新模型参数。无需 RL 的奖励塑形或策略梯度技巧。
Results & Findings
- 覆盖率提升:在 Lean 定理证明套件上,所提方法比最好的基于 RL 的基线多生成 30 % 的不同正确证明。
- 精确度保持:即使覆盖率更高,正确率仍与 RL 方法相当,验证了可控的权衡。
- Pareto 前沿:通过调节 α,作者绘制出一条平滑曲线,支配了之前的所有方法——在给定精确度水平下,没有其他方法能够同时实现更高的覆盖率。
- 消融实验:去除过滤步骤后,性能回落至类似 RL 的行为,凸显显式目标分布的重要性。
Practical Implications
- 更稳健的代码生成工具 – 开发者可以获得更丰富的有效代码片段或查询改写,减少重复提示的需求。
- 自动定理证明与形式验证 – 更高的覆盖率意味着验证器可以并行探索更多证明策略,加速验证流水线。
- 聊天机器人答案多样性 – 客服机器人能够提供多种正确的解决方案(如故障排除步骤),而不牺牲准确性,从而提升用户体验。
- 简化的微调流程 – α‑散度方法避免了 RL 的工程开销(奖励设计、策略梯度方差降低),更易集成到现有的 MLOps 工作流中。
Limitations & Future Work
- 依赖可靠的过滤器 – 该方法假设存在能够准确标记正确与错误输出的外部验证器;噪声过滤器可能会削弱目标分布。
- 候选生成的可扩展性 – 为过滤生成大量候选可能在词汇量极大或长文本任务上计算成本高。
- 基准范围 – 实验聚焦于 Lean 定理证明基准;在代码合成、数学题求解或自然语言推理等更广泛任务上的评估仍待开展。
- 未来方向 – 作者建议探索自适应 α 调度、整合学习型过滤器(如自一致模型),以及将该框架应用于多模态推理任务。
Authors
- Germán Kruszewski
- Pierre Erbacher
- Jos Rozen
- Marc Dymetman
Paper Information
- arXiv ID: 2512.05962v1
- Categories: cs.LG, cs.AI
- Published: December 5, 2025
- PDF: Download PDF