[Paper] 只要剩下的必须为真：过滤驱动LLMs的推理，塑造多样性

发布: 2个月前 (2025年12月6日 GMT+8 02:56)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.05962v1

Overview

论文 “Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity” 对在推理任务上微调大语言模型（LLM）时广泛使用的强化学习（RL）提出挑战。作者指出，RL 隐式优化的 模式寻求 逆 KL 散度会导致模型输出多样性的崩塌，并提出一种基于过滤的办法，直接在精确度和覆盖率之间取得平衡。

Key Contributions

通过过滤得到显式目标分布 – 删除错误答案，同时保留所有正确解的相对概率。
α‑散度框架 – 统一了模式寻求（逆 KL）和质量覆盖（正向 KL）目标，提供了一个单一的旋钮来权衡精确度与多样性。
Pareto‑最优的覆盖‑精确度权衡 – 在 Lean 定理证明基准上展示了最先进的结果，尤其提升了覆盖率（生成大量不同正确证明的能力）。
理论洞见 – 将 RL 微调 LLM 时多样性丧失归因于逆 KL 的 “零强迫” 特性，并提供了原理性的替代方案。

Methodology

收集候选池 – 从预训练 LLM 生成大量可能的答案（例如证明步骤）。
过滤错误答案 – 使用外部验证器（定理证明器或分类器）仅保留正确的候选。剩余集合定义了 目标分布：每个正确答案保留其原始的相对可能性。
用 α‑散度近似目标 – 训练 LLM 最小化其当前输出分布与过滤后目标之间的 α‑散度。
- 当 α → 0 时，目标表现为正向 KL（质量覆盖 → 高多样性）。
- 当 α → 1 时，目标表现为逆 KL（模式寻求 → 高精确度）。
- 中间的 α 值让实践者调节所需的平衡。
优化 – 作者使用简单的随机梯度下降循环，从模型中采样、按 α‑散度梯度重新加权并更新模型参数。无需 RL 的奖励塑形或策略梯度技巧。

Results & Findings

覆盖率提升：在 Lean 定理证明套件上，所提方法比最好的基于 RL 的基线多生成 30 % 的不同正确证明。
精确度保持：即使覆盖率更高，正确率仍与 RL 方法相当，验证了可控的权衡。
Pareto 前沿：通过调节 α，作者绘制出一条平滑曲线，支配了之前的所有方法——在给定精确度水平下，没有其他方法能够同时实现更高的覆盖率。
消融实验：去除过滤步骤后，性能回落至类似 RL 的行为，凸显显式目标分布的重要性。

Practical Implications

更稳健的代码生成工具 – 开发者可以获得更丰富的有效代码片段或查询改写，减少重复提示的需求。
自动定理证明与形式验证 – 更高的覆盖率意味着验证器可以并行探索更多证明策略，加速验证流水线。
聊天机器人答案多样性 – 客服机器人能够提供多种正确的解决方案（如故障排除步骤），而不牺牲准确性，从而提升用户体验。
简化的微调流程 – α‑散度方法避免了 RL 的工程开销（奖励设计、策略梯度方差降低），更易集成到现有的 MLOps 工作流中。

Limitations & Future Work

依赖可靠的过滤器 – 该方法假设存在能够准确标记正确与错误输出的外部验证器；噪声过滤器可能会削弱目标分布。
候选生成的可扩展性 – 为过滤生成大量候选可能在词汇量极大或长文本任务上计算成本高。
基准范围 – 实验聚焦于 Lean 定理证明基准；在代码合成、数学题求解或自然语言推理等更广泛任务上的评估仍待开展。
未来方向 – 作者建议探索自适应 α 调度、整合学习型过滤器（如自一致模型），以及将该框架应用于多模态推理任务。

Authors

Germán Kruszewski
Pierre Erbacher
Jos Rozen
Marc Dymetman

Paper Information

arXiv ID: 2512.05962v1
Categories: cs.LG, cs.AI
Published: December 5, 2025
PDF: Download PDF

[Paper] 只要剩下的必须为真：过滤驱动LLMs的推理，塑造多样性

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

相关文章

[Paper] 用 Entity Linking 提升教育平台的 Retrieval-Augmented Generation

[Paper] 训练时动作条件化实现高效实时分块

[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强

[Paper] M4-RAG：大规模多语言多文化多模态 RAG