[Paper] 模型应多快投入监督？在 Tsallis 损失连续体上训练推理模型

发布: 19小时前 (2026年4月29日 GMT+8 01:52)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.25907v1

概述

本文解决了在仅有输出层级反馈（例如“答案是否与真实答案匹配？”）的情况下，对大型推理模型进行微调时的常见痛点。当模型的初始成功概率极低时，标准的可验证奖励强化学习（RLVR）可能会在“冷启动”平台上卡住，耗时不可接受。作者提出了一系列基于 Tsallis $q$‑对数的损失函数，这些函数在纯 RLVR 与经典最大似然训练之间平滑插值，显著加速了从冷启动中的逃脱，同时保持训练的稳定性。

关键贡献

Tsallis loss continuum：引入了一族由 $q\in[0,1]$ 参数化的 $J_Q$，在 RL 风格的利用（$q=0$）和密度估计（$q=1$）之间搭建桥梁。
梯度放大洞见：展示了该族中所有损失共享相同的梯度方向；唯一的区别是每个样本的标量放大因子 $P_{\theta}^{-q}$，它对更新进行重新加权。
理论逃逸时间分析：证明纯 RLVR 需要 $\Omega(1/p_0)$ 的时间才能摆脱冷启动（其中 $p_0$ 为初始成功率），而似然极点仅需 $\Theta(\log(1/p_0))$，中间的 $q$ 值在速度与噪声记忆之间进行权衡。
两种实用估计器：
1. 梯度放大 RL（GARL）——从先验中采样，计算 RL 梯度，然后通过 $P_{\theta}^{-q}$ 放大该梯度。
2. 后验衰减微调（PAFT）——对后验进行重要性重采样，并执行标准的监督微调步骤。
实证验证：在三个多跳 QA 基准（FinQA、HotPotQA、MuSiQue）上，使用 $q=0.75$ 的 GARL 消除了先前方法（如 GRPO）在冷启动时的停滞，而 PAFT 在更具挑战性的数据集上提供了稳定的训练。

方法论

Problem setting – 模型生成潜在的推理轨迹（中间步骤的链）。只有最终答案可以被验证，因此训练信号稀疏。
Tsallis‑based loss – 作者用 Tsallis $q$‑对数取代常规的对数似然 $\log p_\theta$，即

[ \log_q(p_\theta)=\frac{p_\theta^{1-q}-1}{1-q}, ]

从而得到损失

[ J_Q(\theta)=\mathbb{E}{\text{data}}\big[-\log_q p\theta(\text{trajectory})\big]. ]

当 $q=0$ 时该式退化为 RLVR 目标（奖励加权的对数概率）；当 $q=1$ 时则成为标准的边际似然。
Gradient decomposition – $J_Q$ 的梯度可以写成 RL 梯度乘以一个标量 $P_{\theta}^{-q}$，其中 $P_{\theta}$ 是（难以计算的）观测答案的边际概率。
Monte‑Carlo estimators – 由于 $P_{\theta}$ 无法精确计算，作者推导出两种无偏（误差上界为 $O(q/(M P_{\theta}^{q+1}))$）估计器：
- GARL 从模型的先验分布中抽样，评估奖励，并用近似 $P_{\theta}^{-q}$ 的重要性权重对 RL 梯度进行缩放。
- PAFT 从近似后验中抽样（使用奖励作为过滤器），随后对这些样本进行普通的监督式微调，实质上将梯度衰减为 $P_{\theta}^{q}$。
Training loop – 两种估计器都可以直接嵌入标准的随机梯度下降流程；唯一会影响行为的超参数是 $q$。

结果与发现

数据集	指标 (majority@16)	基线 (GRPO)	GARL $q=0.75$	PAFT $q=0.75$
FinQA	62.1	58.3	66.5 (最佳)	65.2
HotPotQA	33.5	30.1	35.2 (不稳定)	47.9 (+14.4 超过 GRPO)
MuSiQue	28.7	24.9	31.0 (高方差)	34.5

冷启动拯救：在初始成功概率 $p_0$ 小于 1 % 的任务中，使用 $q=0.75$ 的 GARL 在几千步内摆脱平台期，而 GRPO 在相同预算内始终未能突破。
稳定性权衡：较低的 $q$ 值（更接近纯 RL）能够更快获得早期收益，但随后会受到噪声梯度尖峰的影响；PAFT 的重要性重采样平滑了这些尖峰，使得在更难的 HotPotQA 和 MuSiQue 基准上实现更可靠的收敛。
偏差‑方差：实证表明，GARL 的梯度方差较低，但存在小偏差，随着训练进行而消失；PAFT 的方差较高，但产生语义连贯的更新（有助于调试）。

Practical Implications

更快的推理 LLM 微调 – 开发者现在可以用更少的奖励信号交互，将大型语言模型适配到新的多步骤推理任务（例如金融问答、科学文献综述），显著降低计算成本。
冷启动缓解 – 在新领域部署模型且正确答案稀缺时，将 $q\approx0.7$ 并使用 GARL 可以防止模型陷入停滞，使迭代式产品上线成为可能。
即插即用的损失函数 – Tsallis 损失是对常规 RL‑from‑human‑feedback (RLHF) 损失的直接替换；只需配置标量 $q$ 和估计器（GARL 与 PAFT）即可。
更好的调试 – PAFT 的“后验衰减”梯度保持与监督微调更新的接近，便于追踪模型在特定示例上为何改进或失败。
混合流水线的潜力 – 团队可以先使用 GARL 实现快速的早期进展，然后在模型达到合理成功率后切换到 PAFT 进行稳定的微调。

Limitations & Future Work

Intractable marginal $P_{\theta}$ – 两个估计量都依赖 Monte‑Carlo 近似；当 $P_{\theta}$ 极小或样本量 $M$ 有限时，偏差项 $O\big(\frac{q}{M P_{\theta}^{q+1}}\big)$ 可能变得不可忽略。
Stability on very noisy rewards – 在具有高度随机验证信号的数据集上，GARL 仍可能发散；论文中提到当 $q<0.5$ 时会偶尔出现“梯度爆炸”。
Scalability to massive models – 实验仅在最多 13 B 参数的模型上进行；尚不清楚该方法在 70 B 规模的 LLM 上的表现，因为采样成本将占主导。
Automatic $q$ selection – 目前的工作将 $q$ 视为手动调节的超参数。未来研究可以开发基于观测到的 $p_0$ 或梯度方差自适应调节 $q$ 的调度策略。
Broader task families – 本研究聚焦于多跳 QA；将 Tsallis 连续体应用于其他推理密集型任务（代码生成、定理证明）是一个令人期待的后续方向。

作者

Chu‑Cheng Lin
Eugene Ie

论文信息

arXiv ID: 2604.25907v1
类别: cs.LG, cs.AI
发表时间: 2026年4月28日
PDF: Download PDF

[Paper] 模型应多快投入监督？在 Tsallis 损失连续体上训练推理模型

概述

关键贡献

方法论

结果与发现

Practical Implications

Limitations & Future Work

作者

论文信息

相关文章

[Paper] 递归多智能体系统

[论文] Teacher Forcing 作为广义贝叶斯：混沌动力学中切换代理的优化几何不匹配

[Paper] 面向自然语言语义的函数式几何代数

[Paper] TSN-Affinity：相似度驱动的参数复用用于持续离线强化学习