[Paper] 模型应多快投入监督?在 Tsallis 损失连续体上训练推理模型

发布: (2026年4月29日 GMT+8 01:52)
8 分钟阅读
原文: arXiv

Source: arXiv - 2604.25907v1

概述

本文解决了在仅有输出层级反馈(例如“答案是否与真实答案匹配?”)的情况下,对大型推理模型进行微调时的常见痛点。当模型的初始成功概率极低时,标准的可验证奖励强化学习(RLVR)可能会在“冷启动”平台上卡住,耗时不可接受。作者提出了一系列基于 Tsallis $q$‑对数的损失函数,这些函数在纯 RLVR 与经典最大似然训练之间平滑插值,显著加速了从冷启动中的逃脱,同时保持训练的稳定性。

关键贡献

  • Tsallis loss continuum:引入了一族由 $q\in[0,1]$ 参数化的 $J_Q$,在 RL 风格的利用($q=0$)和密度估计($q=1$)之间搭建桥梁。
  • 梯度放大洞见:展示了该族中所有损失共享相同的梯度方向;唯一的区别是每个样本的标量放大因子 $P_{\theta}^{-q}$,它对更新进行重新加权。
  • 理论逃逸时间分析:证明纯 RLVR 需要 $\Omega(1/p_0)$ 的时间才能摆脱冷启动(其中 $p_0$ 为初始成功率),而似然极点仅需 $\Theta(\log(1/p_0))$,中间的 $q$ 值在速度与噪声记忆之间进行权衡。
  • 两种实用估计器
    1. 梯度放大 RL(GARL)——从先验中采样,计算 RL 梯度,然后通过 $P_{\theta}^{-q}$ 放大该梯度。
    2. 后验衰减微调(PAFT)——对后验进行重要性重采样,并执行标准的监督微调步骤。
  • 实证验证:在三个多跳 QA 基准(FinQA、HotPotQA、MuSiQue)上,使用 $q=0.75$ 的 GARL 消除了先前方法(如 GRPO)在冷启动时的停滞,而 PAFT 在更具挑战性的数据集上提供了稳定的训练。

方法论

  1. Problem setting – 模型生成潜在的推理轨迹(中间步骤的链)。只有最终答案可以被验证,因此训练信号稀疏。

  2. Tsallis‑based loss – 作者用 Tsallis $q$‑对数取代常规的对数似然 $\log p_\theta$,即

    [ \log_q(p_\theta)=\frac{p_\theta^{1-q}-1}{1-q}, ]

    从而得到损失

    [ J_Q(\theta)=\mathbb{E}{\text{data}}\big[-\log_q p\theta(\text{trajectory})\big]. ]

    当 $q=0$ 时该式退化为 RLVR 目标(奖励加权的对数概率);当 $q=1$ 时则成为标准的边际似然。

  3. Gradient decomposition – $J_Q$ 的梯度可以写成 RL 梯度乘以一个标量 $P_{\theta}^{-q}$,其中 $P_{\theta}$ 是(难以计算的)观测答案的边际概率。

  4. Monte‑Carlo estimators – 由于 $P_{\theta}$ 无法精确计算,作者推导出两种无偏(误差上界为 $O(q/(M P_{\theta}^{q+1}))$)估计器:

    • GARL 从模型的先验分布中抽样,评估奖励,并用近似 $P_{\theta}^{-q}$ 的重要性权重对 RL 梯度进行缩放。
    • PAFT 从近似后验中抽样(使用奖励作为过滤器),随后对这些样本进行普通的监督式微调,实质上将梯度衰减为 $P_{\theta}^{q}$。
  5. Training loop – 两种估计器都可以直接嵌入标准的随机梯度下降流程;唯一会影响行为的超参数是 $q$。

结果与发现

数据集指标 (majority@16)基线 (GRPO)GARL $q=0.75$PAFT $q=0.75$
FinQA62.158.366.5 (最佳)65.2
HotPotQA33.530.135.2 (不稳定)47.9 (+14.4 超过 GRPO)
MuSiQue28.724.931.0 (高方差)34.5
  • 冷启动拯救:在初始成功概率 $p_0$ 小于 1 % 的任务中,使用 $q=0.75$ 的 GARL 在几千步内摆脱平台期,而 GRPO 在相同预算内始终未能突破。
  • 稳定性权衡:较低的 $q$ 值(更接近纯 RL)能够更快获得早期收益,但随后会受到噪声梯度尖峰的影响;PAFT 的重要性重采样平滑了这些尖峰,使得在更难的 HotPotQA 和 MuSiQue 基准上实现更可靠的收敛。
  • 偏差‑方差:实证表明,GARL 的梯度方差较低,但存在小偏差,随着训练进行而消失;PAFT 的方差较高,但产生语义连贯的更新(有助于调试)。

Practical Implications

  • 更快的推理 LLM 微调 – 开发者现在可以用更少的奖励信号交互,将大型语言模型适配到新的多步骤推理任务(例如金融问答、科学文献综述),显著降低计算成本。
  • 冷启动缓解 – 在新领域部署模型且正确答案稀缺时,将 $q\approx0.7$ 并使用 GARL 可以防止模型陷入停滞,使迭代式产品上线成为可能。
  • 即插即用的损失函数 – Tsallis 损失是对常规 RL‑from‑human‑feedback (RLHF) 损失的直接替换;只需配置标量 $q$ 和估计器(GARL 与 PAFT)即可。
  • 更好的调试 – PAFT 的“后验衰减”梯度保持与监督微调更新的接近,便于追踪模型在特定示例上为何改进或失败。
  • 混合流水线的潜力 – 团队可以先使用 GARL 实现快速的早期进展,然后在模型达到合理成功率后切换到 PAFT 进行稳定的微调。

Limitations & Future Work

  • Intractable marginal $P_{\theta}$ – 两个估计量都依赖 Monte‑Carlo 近似;当 $P_{\theta}$ 极小或样本量 $M$ 有限时,偏差项 $O\big(\frac{q}{M P_{\theta}^{q+1}}\big)$ 可能变得不可忽略。
  • Stability on very noisy rewards – 在具有高度随机验证信号的数据集上,GARL 仍可能发散;论文中提到当 $q<0.5$ 时会偶尔出现“梯度爆炸”。
  • Scalability to massive models – 实验仅在最多 13 B 参数的模型上进行;尚不清楚该方法在 70 B 规模的 LLM 上的表现,因为采样成本将占主导。
  • Automatic $q$ selection – 目前的工作将 $q$ 视为手动调节的超参数。未来研究可以开发基于观测到的 $p_0$ 或梯度方差自适应调节 $q$ 的调度策略。
  • Broader task families – 本研究聚焦于多跳 QA;将 Tsallis 连续体应用于其他推理密集型任务(代码生成、定理证明)是一个令人期待的后续方向。

作者

  • Chu‑Cheng Lin
  • Eugene Ie

论文信息

  • arXiv ID: 2604.25907v1
  • 类别: cs.LG, cs.AI
  • 发表时间: 2026年4月28日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 递归多智能体系统

递归或循环语言模型最近作为一种新的扩展轴出现,通过在潜在状态上迭代细化相同的模型计算来加深 …