LAD：学习优势分布用于推理

发布: 3天前 (2026年2月24日 GMT+8 02:44)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.20132v1

概览

论文 “LAD: Learning Advantage Distribution for Reasoning” 提出了一种用于复杂推理任务的全新大语言模型（LLM）训练方式。作者并未采用通常的强化学习（RL）目标——仅让模型最大化单一期望奖励，而是引入了 Learning Advantage Distributions (LAD)，让模型学习匹配 优势分布。这种方法能够产生更为多样、可靠的推理输出，同时避免了在 RL 微调的 LLM 中常见的“模式崩塌”问题。

关键贡献

Advantage‑distribution objective（优势分布目标）: 用基于 f‑divergence（f‑散度）的分布匹配损失取代经典的优势最大化，该散度衡量策略输出分布与由优势诱导的目标分布之间的差异。
理论等价性证明: 证明在强化学习中，最优的策略更新在数学上等价于最小化该散度，为该方法提供了坚实的理论基础。
Entropy‑free regularization（无熵正则化）: LAD 损失自然抑制过于自信的概率峰值，消除了其他基于 RL 的微调方法常用的额外熵奖励的需求。
Zero extra compute（零额外计算）: 与最先进的 GRPO（Generalized Reward‑Based Policy Optimization）相比，该算法不增加任何计算开销，可在标准 LLM 预训练之后直接应用。
Empirical validation（实证验证）: 在合成 bandit 实验中展示 LAD 能恢复多模态优势分布，并在多个 LLM 主干模型的数学与代码推理基准上始终提升准确性和输出多样性。

方法论

优势诱导分布：
- 对于提示的每个可能响应 (y)，计算其优势 (A(y) = r(y) - V)（奖励减去基线值）。
- 将这些优势转换为目标概率分布 (p_A(y) \propto \exp(A(y)))。高优势的响应获得更高的概率，但所有有优势的备选仍保留一定的概率质量。
策略诱导分布：
- 当前的大语言模型通过其 softmax logits 定义了一个响应的概率分布 (p_\theta(y))。
LAD 目标：
- 最小化一个 f‑散度 (D_f(p_A ,|, p_\theta))。实际中作者使用 KL 散度，得到以下损失：

[ \mathcal{L}{\text{LAD}} = \mathbb{E}{y \sim p_A}!\big[ \log p_A(y) - \log p_\theta(y) \big]. ]

对该损失进行梯度下降会提升高优势答案的似然，同时降低低优势答案的概率，而不会强制分布过度尖锐。

训练流程：
- 生成一组候选完成（例如，通过 nucleus 采样）。
- 使用任务特定的奖励模型对每个候选进行打分（例如，数学解答的正确性）。
- 计算优势，构造 (p_A)，并使用 LAD 损失更新大语言模型。

因为该损失仅需要一次前向传播来获取奖励，以及对 KL 项的标准反向传播，所以该方法可以无缝融入现有的基于人类反馈的 RL 或 RL 微调循环中。

结果与发现

实验	基线	LAD	Δ 准确率	Δ 多样性*
合成强盗（多模态）	坍缩为单臂	恢复完整的多模态优势分布	—	+0.42（熵）
GSM8K（数学推理） – LLaMA‑2‑13B	42.1 %	45.8 %	+3.7 %	+0.18
HumanEval（代码生成） – CodeLlama‑7B	31.4 %	34.6 %	+3.2 %	+0.21
多轮推理（MATH‑CoT） – GPT‑Neo‑2.7B	27.9 %	30.5 %	+2.6 %	+0.15

* 多样性通过平均 token 级别熵以及每个提示的不同有效解的比例来衡量。

关键要点

准确率提升 在各任务中为 2–4 %，可比拟甚至优于熵正则化的强化学习方法。
生成多样性 显著提升，表明模型不太倾向于重复输出相同的“安全”答案。
在受控强盗实验中，LAD 完全匹配理论优势分布，验证了公式的正确性。

Practical Implications

更稳健的 LLM 助手： 开发聊天机器人、辅导系统或代码助手的开发者可以采用 LAD，获得既正确又多样的答案，降低重复或过于保守的响应风险。
零成本微调： 由于 LAD 在常规奖励评估之外不增加额外的前向传播，可直接嵌入现有的 RL‑HF 流程，无需额外的 GPU 预算。
更好的安全关键领域探索： 保留多个高优势的推理路径可以发现单目标 RL 可能错过的新颖解法（例如自动定理证明、科学发现）。
简化超参数调优： 该方法消除了平衡熵系数的需求，这在使用 PPO‑style RL 进行 LLM 训练时是常见的痛点。

限制与未来工作

奖励模型依赖性: LAD 的性能取决于底层奖励估计器的质量；有偏或噪声较大的奖励会直接影响学习到的优势分布。
候选生成的可扩展性: 该方法需要对每个提示采样一定数量的候选完成；对于极大的模型可能需要仔细预算，以保持此步骤的可行性。
理论关注 KL 散度: 虽然论文证明了对通用 f‑divergence 的等价性，但实验仅探索了 KL 散度。研究其他散度（例如逆 KL、α‑散度）可能会在探索与利用之间产生不同的权衡。
更广泛的任务覆盖: 当前评估主要集中在数学和代码推理上；将 LAD 应用于开放式生成（如故事写作）仍是一个待解的问题。

总体而言，LAD 提供了一种概念上简单却强大的 RL‑基 LLM 微调调优方式，能够在不增加额外计算开销的情况下提升正确性和创造力——这对希望从语言模型中获得更多收益的开发者具有很大吸引力。

作者

Wendi Li
Sharon Li

论文信息

arXiv ID: 2602.20132v1
分类: cs.LG
出版日期: 2026年2月23日
PDF: 下载 PDF

LAD：学习优势分布用于推理

概览

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 在翻译中恢复：高效的基准和数据集自动翻译流水线

[Paper] 现成的 Image-to-Image 模型是击败图像保护方案的全部所需

[Paper] GUI‑Libra：训练原生 GUI 代理以推理和行动，采用动作感知监督和部分可验证的 RL

[Paper] 代理模型用于岩石-流体相互作用：网格尺寸不变方法