LAD:学习优势分布用于推理

发布: (2026年2月24日 GMT+8 02:44)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.20132v1

概览

论文 “LAD: Learning Advantage Distribution for Reasoning” 提出了一种用于复杂推理任务的全新大语言模型(LLM)训练方式。作者并未采用通常的强化学习(RL)目标——仅让模型最大化单一期望奖励,而是引入了 Learning Advantage Distributions (LAD),让模型学习匹配 优势分布。这种方法能够产生更为多样、可靠的推理输出,同时避免了在 RL 微调的 LLM 中常见的“模式崩塌”问题。

关键贡献

  • Advantage‑distribution objective(优势分布目标): 用基于 f‑divergence(f‑散度)的分布匹配损失取代经典的优势最大化,该散度衡量策略输出分布与由优势诱导的目标分布之间的差异。
  • 理论等价性证明: 证明在强化学习中,最优的策略更新在数学上等价于最小化该散度,为该方法提供了坚实的理论基础。
  • Entropy‑free regularization(无熵正则化): LAD 损失自然抑制过于自信的概率峰值,消除了其他基于 RL 的微调方法常用的额外熵奖励的需求。
  • Zero extra compute(零额外计算): 与最先进的 GRPO(Generalized Reward‑Based Policy Optimization)相比,该算法不增加任何计算开销,可在标准 LLM 预训练之后直接应用。
  • Empirical validation(实证验证): 在合成 bandit 实验中展示 LAD 能恢复多模态优势分布,并在多个 LLM 主干模型的数学与代码推理基准上始终提升准确性和输出多样性。

方法论

  1. 优势诱导分布:

    • 对于提示的每个可能响应 (y),计算其优势 (A(y) = r(y) - V)(奖励减去基线值)。
    • 将这些优势转换为目标概率分布 (p_A(y) \propto \exp(A(y)))。高优势的响应获得更高的概率,但所有有优势的备选仍保留一定的概率质量。
  2. 策略诱导分布:

    • 当前的大语言模型通过其 softmax logits 定义了一个响应的概率分布 (p_\theta(y))。
  3. LAD 目标:

    • 最小化一个 f‑散度 (D_f(p_A ,|, p_\theta))。实际中作者使用 KL 散度,得到以下损失:

[ \mathcal{L}{\text{LAD}} = \mathbb{E}{y \sim p_A}!\big[ \log p_A(y) - \log p_\theta(y) \big]. ]

  • 对该损失进行梯度下降会提升高优势答案的似然,同时降低低优势答案的概率,而不会强制分布过度尖锐。
  1. 训练流程:
    • 生成一组候选完成(例如,通过 nucleus 采样)。
    • 使用任务特定的奖励模型对每个候选进行打分(例如,数学解答的正确性)。
    • 计算优势,构造 (p_A),并使用 LAD 损失更新大语言模型。

因为该损失仅需要一次前向传播来获取奖励,以及对 KL 项的标准反向传播,所以该方法可以无缝融入现有的基于人类反馈的 RL 或 RL 微调循环中。

结果与发现

实验基线LADΔ 准确率Δ 多样性*
合成强盗(多模态)坍缩为单臂恢复完整的多模态优势分布+0.42(熵)
GSM8K(数学推理) – LLaMA‑2‑13B42.1 %45.8 %+3.7 %+0.18
HumanEval(代码生成) – CodeLlama‑7B31.4 %34.6 %+3.2 %+0.21
多轮推理(MATH‑CoT) – GPT‑Neo‑2.7B27.9 %30.5 %+2.6 %+0.15

* 多样性通过平均 token 级别熵以及每个提示的不同有效解的比例来衡量。

关键要点

  • 准确率提升 在各任务中为 2–4 %,可比拟甚至优于熵正则化的强化学习方法。
  • 生成多样性 显著提升,表明模型不太倾向于重复输出相同的“安全”答案。
  • 在受控强盗实验中,LAD 完全匹配理论优势分布,验证了公式的正确性。

Practical Implications

  • 更稳健的 LLM 助手: 开发聊天机器人、辅导系统或代码助手的开发者可以采用 LAD,获得既正确又多样的答案,降低重复或过于保守的响应风险。
  • 零成本微调: 由于 LAD 在常规奖励评估之外不增加额外的前向传播,可直接嵌入现有的 RL‑HF 流程,无需额外的 GPU 预算。
  • 更好的安全关键领域探索: 保留多个高优势的推理路径可以发现单目标 RL 可能错过的新颖解法(例如自动定理证明、科学发现)。
  • 简化超参数调优: 该方法消除了平衡熵系数的需求,这在使用 PPO‑style RL 进行 LLM 训练时是常见的痛点。

限制与未来工作

  • 奖励模型依赖性: LAD 的性能取决于底层奖励估计器的质量;有偏或噪声较大的奖励会直接影响学习到的优势分布。
  • 候选生成的可扩展性: 该方法需要对每个提示采样一定数量的候选完成;对于极大的模型可能需要仔细预算,以保持此步骤的可行性。
  • 理论关注 KL 散度: 虽然论文证明了对通用 f‑divergence 的等价性,但实验仅探索了 KL 散度。研究其他散度(例如逆 KL、α‑散度)可能会在探索与利用之间产生不同的权衡。
  • 更广泛的任务覆盖: 当前评估主要集中在数学和代码推理上;将 LAD 应用于开放式生成(如故事写作)仍是一个待解的问题。

总体而言,LAD 提供了一种概念上简单却强大的 RL‑基 LLM 微调调优方式,能够在不增加额外计算开销的情况下提升正确性和创造力——这对希望从语言模型中获得更多收益的开发者具有很大吸引力。

作者

  • Wendi Li
  • Sharon Li

论文信息

  • arXiv ID: 2602.20132v1
  • 分类: cs.LG
  • 出版日期: 2026年2月23日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »