[Paper] 模型应多快投入监督?在 Tsallis 损失连续体上训练推理模型
Source: arXiv - 2604.25907v1
概述
本文解决了在仅有输出层级反馈(例如“答案是否与真实答案匹配?”)的情况下,对大型推理模型进行微调时的常见痛点。当模型的初始成功概率极低时,标准的可验证奖励强化学习(RLVR)可能会在“冷启动”平台上卡住,耗时不可接受。作者提出了一系列基于 Tsallis $q$‑对数的损失函数,这些函数在纯 RLVR 与经典最大似然训练之间平滑插值,显著加速了从冷启动中的逃脱,同时保持训练的稳定性。
关键贡献
- Tsallis loss continuum:引入了一族由 $q\in[0,1]$ 参数化的 $J_Q$,在 RL 风格的利用($q=0$)和密度估计($q=1$)之间搭建桥梁。
- 梯度放大洞见:展示了该族中所有损失共享相同的梯度方向;唯一的区别是每个样本的标量放大因子 $P_{\theta}^{-q}$,它对更新进行重新加权。
- 理论逃逸时间分析:证明纯 RLVR 需要 $\Omega(1/p_0)$ 的时间才能摆脱冷启动(其中 $p_0$ 为初始成功率),而似然极点仅需 $\Theta(\log(1/p_0))$,中间的 $q$ 值在速度与噪声记忆之间进行权衡。
- 两种实用估计器:
- 梯度放大 RL(GARL)——从先验中采样,计算 RL 梯度,然后通过 $P_{\theta}^{-q}$ 放大该梯度。
- 后验衰减微调(PAFT)——对后验进行重要性重采样,并执行标准的监督微调步骤。
- 实证验证:在三个多跳 QA 基准(FinQA、HotPotQA、MuSiQue)上,使用 $q=0.75$ 的 GARL 消除了先前方法(如 GRPO)在冷启动时的停滞,而 PAFT 在更具挑战性的数据集上提供了稳定的训练。
方法论
-
Problem setting – 模型生成潜在的推理轨迹(中间步骤的链)。只有最终答案可以被验证,因此训练信号稀疏。
-
Tsallis‑based loss – 作者用 Tsallis $q$‑对数取代常规的对数似然 $\log p_\theta$,即
[ \log_q(p_\theta)=\frac{p_\theta^{1-q}-1}{1-q}, ]
从而得到损失
[ J_Q(\theta)=\mathbb{E}{\text{data}}\big[-\log_q p\theta(\text{trajectory})\big]. ]
当 $q=0$ 时该式退化为 RLVR 目标(奖励加权的对数概率);当 $q=1$ 时则成为标准的边际似然。
-
Gradient decomposition – $J_Q$ 的梯度可以写成 RL 梯度乘以一个标量 $P_{\theta}^{-q}$,其中 $P_{\theta}$ 是(难以计算的)观测答案的边际概率。
-
Monte‑Carlo estimators – 由于 $P_{\theta}$ 无法精确计算,作者推导出两种无偏(误差上界为 $O(q/(M P_{\theta}^{q+1}))$)估计器:
- GARL 从模型的先验分布中抽样,评估奖励,并用近似 $P_{\theta}^{-q}$ 的重要性权重对 RL 梯度进行缩放。
- PAFT 从近似后验中抽样(使用奖励作为过滤器),随后对这些样本进行普通的监督式微调,实质上将梯度衰减为 $P_{\theta}^{q}$。
-
Training loop – 两种估计器都可以直接嵌入标准的随机梯度下降流程;唯一会影响行为的超参数是 $q$。
结果与发现
| 数据集 | 指标 (majority@16) | 基线 (GRPO) | GARL $q=0.75$ | PAFT $q=0.75$ |
|---|---|---|---|---|
| FinQA | 62.1 | 58.3 | 66.5 (最佳) | 65.2 |
| HotPotQA | 33.5 | 30.1 | 35.2 (不稳定) | 47.9 (+14.4 超过 GRPO) |
| MuSiQue | 28.7 | 24.9 | 31.0 (高方差) | 34.5 |
- 冷启动拯救:在初始成功概率 $p_0$ 小于 1 % 的任务中,使用 $q=0.75$ 的 GARL 在几千步内摆脱平台期,而 GRPO 在相同预算内始终未能突破。
- 稳定性权衡:较低的 $q$ 值(更接近纯 RL)能够更快获得早期收益,但随后会受到噪声梯度尖峰的影响;PAFT 的重要性重采样平滑了这些尖峰,使得在更难的 HotPotQA 和 MuSiQue 基准上实现更可靠的收敛。
- 偏差‑方差:实证表明,GARL 的梯度方差较低,但存在小偏差,随着训练进行而消失;PAFT 的方差较高,但产生语义连贯的更新(有助于调试)。
Practical Implications
- 更快的推理 LLM 微调 – 开发者现在可以用更少的奖励信号交互,将大型语言模型适配到新的多步骤推理任务(例如金融问答、科学文献综述),显著降低计算成本。
- 冷启动缓解 – 在新领域部署模型且正确答案稀缺时,将 $q\approx0.7$ 并使用 GARL 可以防止模型陷入停滞,使迭代式产品上线成为可能。
- 即插即用的损失函数 – Tsallis 损失是对常规 RL‑from‑human‑feedback (RLHF) 损失的直接替换;只需配置标量 $q$ 和估计器(GARL 与 PAFT)即可。
- 更好的调试 – PAFT 的“后验衰减”梯度保持与监督微调更新的接近,便于追踪模型在特定示例上为何改进或失败。
- 混合流水线的潜力 – 团队可以先使用 GARL 实现快速的早期进展,然后在模型达到合理成功率后切换到 PAFT 进行稳定的微调。
Limitations & Future Work
- Intractable marginal $P_{\theta}$ – 两个估计量都依赖 Monte‑Carlo 近似;当 $P_{\theta}$ 极小或样本量 $M$ 有限时,偏差项 $O\big(\frac{q}{M P_{\theta}^{q+1}}\big)$ 可能变得不可忽略。
- Stability on very noisy rewards – 在具有高度随机验证信号的数据集上,GARL 仍可能发散;论文中提到当 $q<0.5$ 时会偶尔出现“梯度爆炸”。
- Scalability to massive models – 实验仅在最多 13 B 参数的模型上进行;尚不清楚该方法在 70 B 规模的 LLM 上的表现,因为采样成本将占主导。
- Automatic $q$ selection – 目前的工作将 $q$ 视为手动调节的超参数。未来研究可以开发基于观测到的 $p_0$ 或梯度方差自适应调节 $q$ 的调度策略。
- Broader task families – 本研究聚焦于多跳 QA;将 Tsallis 连续体应用于其他推理密集型任务(代码生成、定理证明)是一个令人期待的后续方向。
作者
- Chu‑Cheng Lin
- Eugene Ie
论文信息
- arXiv ID: 2604.25907v1
- 类别: cs.LG, cs.AI
- 发表时间: 2026年4月28日
- PDF: Download PDF