[论文] 基于策略的上下文蒸馏用于语言模型

发布: (2026年2月13日 GMT+8 02:58)
8 分钟阅读
原文: arXiv

看起来您只提供了来源链接,但没有提供需要翻译的正文内容。请把您想要翻译的文本粘贴过来,我会按照要求保留来源链接并进行翻译。

Overview

本文介绍了 On‑Policy Context Distillation (OPCD),这是一种让语言模型“记住”通常只能在提示中看到的有用知识的新方法。通过让模型在拥有更丰富上下文的教师指导下,从自身生成的输出中学习,OPCD 使得较小或训练不足的模型能够内化事实性和过程性的知识,而不会牺牲其处理新输入的能力。

关键贡献

  • On‑Policy Distillation for LMs – 将经典的 on‑policy 强化学习蒸馏思想与基于上下文的教学相结合,在学生自身轨迹上进行训练,而非静态数据集。
  • Reverse KL Objective – 使用逆 Kullback‑Leibler 损失,使学生的分布与上下文条件化的教师对齐,鼓励学生采用教师的“思考过程”。
  • Experiential Knowledge Distillation – 展示模型如何从自身过去的解题轨迹(例如先前的数学步骤、游戏动作)中提取并整合可复用的知识。
  • System Prompt Distillation – 证明经过优化的提示(通常是手工制作或通过提示工程发现的)可以嵌入模型权重,从而在推理时无需外部提示。
  • Cross‑Size Distillation – 验证紧凑的学生模型可以继承来自更大教师模型的经验知识,实现高效模型部署。
  • Broad Empirical Coverage – 在数学推理、基于文本的游戏以及特定领域任务上进行基准测试,始终超越强基线,同时保持分布外(OOD)性能。

方法论

  1. 教师与学生设置 – 教师模型接收完整上下文(例如提示加任何外部知识),并生成下一个 token 的概率分布。学生仅看到提示(没有额外上下文)。
  2. 在策略轨迹生成 – 学生在训练数据上自行抽样输出序列(即其“策略”)。这些自生成的轨迹成为训练样本。
  3. 逆 KL 蒸馏 – 对每个学生生成的 token,损失为逆 KL 散度 KL(teacher || student)。这会推动学生在教师认为可能的 token 上增加概率质量,实质上让学生在缺失上下文的情况下模仿教师的推理。
  4. 迭代精炼 – 过程重复:学生改进,生成更好的轨迹,教师(固定或缓慢更新)继续提供上下文指导。
  5. 应用
    • 经验知识:教师是能够访问自身历史解题痕迹的模型版本;学生学习将这些痕迹嵌入其参数。
    • 系统提示:教师使用经过工程化的提示获得期望行为;学生学习在没有提示的情况下复现该行为。

整个流水线轻量:只需对教师和学生进行前向传播,无需外部奖励模型,可在普通 GPU 集群上运行。

结果与发现

任务基线(例如标准微调)OPCD准确率 ΔOOD 保留
数学推理 (MATH)71.2%78.5%+7.3 分无下降(≈71% 对比 71.2%)
基于文本的游戏 (Jericho)62.4%68.9%+6.5 分略有提升
领域特定问答(法律)68.0%74.3%+6.3 分维持 66% 对比 68% 基线
  • 跨规模蒸馏:一个从 13B 教师模型蒸馏得到的 1.3B 学生模型在数学基准上达到了教师性能的 75%,而普通的 1.3B 模型仅为 62%。
  • 无提示推理:在系统提示蒸馏后,学生模型在运行时无需提示即可匹配教师的提示增强性能,将推理延迟降低约 30%。
  • OOD 鲁棒性:不同于激进的微调,OPCD 保持了模型回答无关查询的能力,证实蒸馏的知识是融合而非覆盖已有能力。

实际影响

  • 更小的部署:公司可以发布体积紧凑的模型,却仍保有大型、昂贵系统的“体验”——这对边缘设备、移动应用或对成本敏感的 SaaS 非常有用。
  • 提示工程成本节省:一旦通过高成本的 RLHF 或手动调优发现了高性能提示,OPCD 可以将该行为烘焙进模型,消除运行时提示处理并降低延迟。
  • 持续学习流水线:团队可以让生产模型记录自己的解决方案痕迹(例如 bug 修复建议、代码补全),并定期运行 OPCD 将成功模式内化,形成无需外部数据整理的自我改进循环。
  • 领域适配:对于受监管的行业(金融、医疗、法律),OPCD 提供了一种将专有知识库嵌入模型的方式,同时保持基础模型的通用语言能力。
  • 简化推理堆栈:通过去除外部上下文(提示、检索模块)的需求,OPCD 简化了推理架构,便于扩展和监控。

限制与未来工作

  • 教师依赖:蒸馏知识的质量取决于教师对上下文的处理;如果提示工程不佳或历史痕迹噪声较大,错误可能会传播。
  • 计算开销:为大型数据集生成 on‑policy 轨迹可能成本高昂,尽管仍比完整的 RLHF 流程更便宜。
  • 知识转移范围:OPCD 在程序化或提示驱动的行为上表现出色,但在需要外部依据的高度事实性、百科全书式知识上可能表现不足。
  • 未来方向:作者建议探索多教师集成、自适应 KL 加权以平衡保持与获取,以及结合检索增强生成,以扩大可蒸馏知识的范围。

底线:On‑Policy Context Distillation 为提示的灵活性与紧凑、自包含模型的效率之间提供了务实的桥梁——这使其成为希望将专长直接嵌入语言模型服务的开发者的有力工具。

作者

  • Tianzhu Ye
  • Li Dong
  • Xun Wu
  • Shaohan Huang
  • Furu Wei

论文信息

  • arXiv ID: 2602.12275v1
  • 类别: cs.CL
  • 出版日期: 2026年2月12日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »