[Paper] 语义软引导:在 LLMs 中进行长上下文推理,无需强化学习
发布: (2025年12月5日 GMT+8 02:59)
6 min read
原文: arXiv
Source: arXiv - 2512.05105v1
概览
本文提出了 语义软自举 (Semantic Soft Bootstrapping, SSB),一种自蒸馏方案,使单个语言模型能够在不使用强化学习‑可验证奖励 (RLVR) 的高计算成本的情况下,自主学习在长上下文中进行推理。通过从原始问题‑答案数据自动生成教师‑学生对,SSB 在具有挑战性的数学基准上实现了超过 10 % 的提升,同时完全兼容标准的微调流水线。
关键贡献
- 无需外部奖励的自蒸馏: 同一基础大模型既充当教师又充当学生,接收关于正确性的“软”语义信号,而非稀疏的 RL 奖励。
- 自动数据策划: 从一组 roll‑out 中,流水线提取正确答案和最常出现的错误答案,然后将它们作为上下文重新输入,以生成高质量的逐步解释。
- Logit 级别监督: 学生被训练以匹配教师每个 token 的完整概率分布(logits),保留细腻的推理信息。
- 参数高效微调: 在 Qwen2.5‑3B‑Instruct 上演示,仅需相对较少的计算资源即可与完整的 RLVR 循环相媲美。
- 实证提升: 在 GSM8K 上提升 +10.6 %,在 MATH500/AIME2024 上提升 +10 %,相较于强大的 GRPO RLVR 基线。
- 开源发布: 代码、模型检查点和策划好的数据集均已公开。
方法论
- 提示 & Roll‑out 生成 – 基础模型接收数学问题并生成多个答案候选(roll‑outs)。
- 过滤 – 在 roll‑outs 中,算法选择 正确 答案(与真实答案比对验证)和 最常出现的错误 答案。
- 上下文重新提示 – 将正确答案和常见错误答案注入提示,要求模型生成详细的逐步解答,以得到一个经过验证的最终答案。这产生了一个 教师 输出,包含 token 序列及其对应的 logits。
- 学生训练 – 将原始问题(不含额外上下文)输入 学生 模型。训练目标是最小化学生 logits 与教师 logits 之间的 KL 散度,即学生学习仅凭裸题复现教师的推理分布。
- 微调 – 该过程以参数高效的方式(例如 LoRA 适配器)在 Qwen2.5‑3B‑Instruct 上执行,使模型能够在无需任何 RL 循环的情况下进行长上下文链式思考推理。
结果与发现
| 基准 | 基线 (GRPO) | SSB(本工作) | 准确率变化 |
|---|---|---|---|
| GSM8K(测试) | ~68 % | 78.6 % | +10.6 % |
| MATH500 / AIME2024 | ~45 % | 55 % | +10 % |
- 这些提升 无需 人工编写的链式思考标注;教师数据全部自动生成。
- 与可比的 RLVR 运行相比,训练时间和 GPU 内存消耗约 降低 30 %,得益于省去奖励模型训练和策略梯度步骤。
- 质量检查显示,SSB 训练后的模型产生更连贯的中间步骤,且“幻觉”计算更少。
实际意义
- 降低推理密集型 LLM 的成本: 企业可以利用现有基础模型和适度的微调预算提升数学或代码生成能力,规避昂贵的 RL 流水线。
- 即插即用的 API 集成: 由于 SSB 作为标准监督微调步骤运行,可直接嵌入 CI/CD 工作流,无需重新设计训练框架。
- 更可靠的面向用户解释: 逐步输出更可信,对需要解释建议的开发者工具(如代码助手、辅导机器人)尤为有价值。
- 数据集自举: 自动生成的教师‑学生对可迁移至其他领域(如逻辑谜题、数据分析查询),在已有答案但缺乏详细推理的场景中发挥作用。
局限性与未来工作
- 领域特异性: 实验聚焦于算术和竞赛式数学;向自然语言推理或编程任务的迁移仍需验证。
- 依赖正确的 roll‑outs: 流水线假设初始 roll‑outs 中至少出现一次正确答案;对极难问题可能失效。
- 模型规模扩展: 结果基于 3 B 参数模型,尚不清楚在 30 B+ 大模型上 logits 噪声增大时的表现。
- 未来方向 包括将 SSB 拓展至多模态上下文、为“最常出现的错误答案”加入不确定性估计,以及探索将软自举与轻量级奖励信号相结合的混合方案,以获得更丰富的监督信息。
作者
- Purbesh Mitra
- Sennur Ulukus
论文信息
- arXiv ID: 2512.05105v1
- 分类: cs.CL, cs.AI, cs.IT, cs.LG, eess.SP
- 发表时间: 2025 年 12 月 4 日
- PDF: Download PDF