[论文] 基于策略的上下文蒸馏用于语言模型

发布: 3天前 (2026年2月13日 GMT+8 02:58)

8 分钟阅读

原文: arXiv

看起来您只提供了来源链接，但没有提供需要翻译的正文内容。请把您想要翻译的文本粘贴过来，我会按照要求保留来源链接并进行翻译。

Overview

本文介绍了 On‑Policy Context Distillation (OPCD)，这是一种让语言模型“记住”通常只能在提示中看到的有用知识的新方法。通过让模型在拥有更丰富上下文的教师指导下，从自身生成的输出中学习，OPCD 使得较小或训练不足的模型能够内化事实性和过程性的知识，而不会牺牲其处理新输入的能力。

关键贡献

On‑Policy Distillation for LMs – 将经典的 on‑policy 强化学习蒸馏思想与基于上下文的教学相结合，在学生自身轨迹上进行训练，而非静态数据集。
Reverse KL Objective – 使用逆 Kullback‑Leibler 损失，使学生的分布与上下文条件化的教师对齐，鼓励学生采用教师的“思考过程”。
Experiential Knowledge Distillation – 展示模型如何从自身过去的解题轨迹（例如先前的数学步骤、游戏动作）中提取并整合可复用的知识。
System Prompt Distillation – 证明经过优化的提示（通常是手工制作或通过提示工程发现的）可以嵌入模型权重，从而在推理时无需外部提示。
Cross‑Size Distillation – 验证紧凑的学生模型可以继承来自更大教师模型的经验知识，实现高效模型部署。
Broad Empirical Coverage – 在数学推理、基于文本的游戏以及特定领域任务上进行基准测试，始终超越强基线，同时保持分布外（OOD）性能。

方法论

教师与学生设置 – 教师模型接收完整上下文（例如提示加任何外部知识），并生成下一个 token 的概率分布。学生仅看到提示（没有额外上下文）。
在策略轨迹生成 – 学生在训练数据上自行抽样输出序列（即其“策略”）。这些自生成的轨迹成为训练样本。
逆 KL 蒸馏 – 对每个学生生成的 token，损失为逆 KL 散度 KL(teacher || student)。这会推动学生在教师认为可能的 token 上增加概率质量，实质上让学生在缺失上下文的情况下模仿教师的推理。
迭代精炼 – 过程重复：学生改进，生成更好的轨迹，教师（固定或缓慢更新）继续提供上下文指导。
应用 –
- 经验知识：教师是能够访问自身历史解题痕迹的模型版本；学生学习将这些痕迹嵌入其参数。
- 系统提示：教师使用经过工程化的提示获得期望行为；学生学习在没有提示的情况下复现该行为。

整个流水线轻量：只需对教师和学生进行前向传播，无需外部奖励模型，可在普通 GPU 集群上运行。

结果与发现

任务	基线（例如标准微调）	OPCD	准确率 Δ	OOD 保留
数学推理 (MATH)	71.2%	78.5%	+7.3 分	无下降（≈71% 对比 71.2%）
基于文本的游戏 (Jericho)	62.4%	68.9%	+6.5 分	略有提升
领域特定问答（法律）	68.0%	74.3%	+6.3 分	维持 66% 对比 68% 基线

跨规模蒸馏：一个从 13B 教师模型蒸馏得到的 1.3B 学生模型在数学基准上达到了教师性能的 75%，而普通的 1.3B 模型仅为 62%。
无提示推理：在系统提示蒸馏后，学生模型在运行时无需提示即可匹配教师的提示增强性能，将推理延迟降低约 30%。
OOD 鲁棒性：不同于激进的微调，OPCD 保持了模型回答无关查询的能力，证实蒸馏的知识是融合而非覆盖已有能力。

实际影响

更小的部署：公司可以发布体积紧凑的模型，却仍保有大型、昂贵系统的“体验”——这对边缘设备、移动应用或对成本敏感的 SaaS 非常有用。
提示工程成本节省：一旦通过高成本的 RLHF 或手动调优发现了高性能提示，OPCD 可以将该行为烘焙进模型，消除运行时提示处理并降低延迟。
持续学习流水线：团队可以让生产模型记录自己的解决方案痕迹（例如 bug 修复建议、代码补全），并定期运行 OPCD 将成功模式内化，形成无需外部数据整理的自我改进循环。
领域适配：对于受监管的行业（金融、医疗、法律），OPCD 提供了一种将专有知识库嵌入模型的方式，同时保持基础模型的通用语言能力。
简化推理堆栈：通过去除外部上下文（提示、检索模块）的需求，OPCD 简化了推理架构，便于扩展和监控。

限制与未来工作

教师依赖：蒸馏知识的质量取决于教师对上下文的处理；如果提示工程不佳或历史痕迹噪声较大，错误可能会传播。
计算开销：为大型数据集生成 on‑policy 轨迹可能成本高昂，尽管仍比完整的 RLHF 流程更便宜。
知识转移范围：OPCD 在程序化或提示驱动的行为上表现出色，但在需要外部依据的高度事实性、百科全书式知识上可能表现不足。
未来方向：作者建议探索多教师集成、自适应 KL 加权以平衡保持与获取，以及结合检索增强生成，以扩大可蒸馏知识的范围。

底线：On‑Policy Context Distillation 为提示的灵活性与紧凑、自包含模型的效率之间提供了务实的桥梁——这使其成为希望将专长直接嵌入语言模型服务的开发者的有力工具。

作者

Tianzhu Ye
Li Dong
Xun Wu
Shaohan Huang
Furu Wei

论文信息

arXiv ID: 2602.12275v1
类别: cs.CL
出版日期: 2026年2月12日
PDF: 下载 PDF

[论文] 基于策略的上下文蒸馏用于语言模型

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] T3D：通过轨迹自蒸馏与直接判别优化实现少步 Diffusion 语言模型

[Paper] “抱歉，我没听清”：语音模型如何错过最重要的内容

[Paper] Moonshine v2：Ergodic Streaming Encoder ASR 用于对延迟敏感的语音应用

【论文】Olmix：在语言模型开发全过程中的数据混合框架