[Paper] 面向语言模型的在线体验式学习
发布: (2026年3月18日 GMT+8 01:57)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.16856v1
Overview
本文介绍了 在线体验学习 (OEL),这是一种新框架,使大型语言模型(LLM)能够通过与真实用户的交互不断改进。OEL 不再仅仅依赖于使用精选数据集进行离线微调,而是从部署日志中提取“经验”,将其蒸馏进模型,并重复此循环——将每一次聊天、查询或游戏动作都转化为训练信号。
关键贡献
- 经验知识提取: 一种将原始用户‑模型交互轨迹转化为紧凑、可迁移表示的方法,捕捉模型在部署期间实际学到的内容。
- 在策略上下文蒸馏: 一种轻量、保护隐私的方式,使用提取的知识更新模型参数,无需直接访问用户端环境。
- 迭代在线学习循环: 证明反复执行提取 → 蒸馏 → 重新部署可带来任务性能和令牌效率的持续提升。
- 跨规模实证验证: 在基于文本的游戏环境中的实验显示,对从几亿到数十亿参数的模型均有一致改进,涵盖“思考”(需要规划)和“非思考”任务。
- 关于知识与原始数据的洞见: 表明蒸馏后的经验知识在微调时远比将原始交互日志直接喂入模型更有效。
Methodology
- Data Collection (User‑Side): While the model serves users (e.g., playing a text adventure), it logs each interaction as a trajectory: prompt, model response, user feedback, and any reward signal (success/failure).
- Experiential Knowledge Extraction:
- The trajectories are processed by a lightweight encoder that abstracts away surface details and captures what the model learned (e.g., successful strategies, common failure patterns).
- The result is a set of compact “experience vectors” that are easy to store and transmit.
- On‑Policy Context Distillation (Server‑Side):
- The current model (the policy model) is fine‑tuned on the extracted vectors using a contrastive/distillation loss that aligns the model’s internal representations with the experiential knowledge.
- Crucially, this step does not require replaying the original user interactions, preserving privacy and reducing bandwidth.
- Iterative Loop: The updated model is redeployed, collects higher‑quality trajectories, and the cycle repeats. Over successive rounds the model’s policy becomes more aligned with the real‑world tasks it faces.
结果与发现
- 性能提升: 在 4 种模型规模(0.3B–6B 参数)和 2 类游戏中,OEL 每次迭代将任务成功率提升了 4–12%。
- 标记效率: 更新后的模型使用了 10–18% 更少的标记(tokens)完成任务,表明规划更好,“试错”对话更少。
- 分布外鲁棒性: 尽管训练聚焦于特定游戏环境,OEL 并未降低在无关基准(例如标准问答数据集)上的表现。
- 知识 vs. 原始轨迹: 将蒸馏后的经验向量输入模型,相比直接在原始日志上微调,可实现最高 3 倍的准确率提升。
- 在策略一致性: 当知识提取器与策略模型不同步(例如使用旧模型提取经验)时,提升效果消失,凸显提取器必须反映当前策略的重要性。
Practical Implications
- 持续改进 SaaS 大语言模型: 公司可以将 OEL 嵌入其 API 服务,将每个用户请求转化为训练信号,而无需暴露原始日志。
- 降低标注成本: 消除昂贵的人在环标注需求;模型从自身的成功与失败中学习。
- 隐私优先学习: 仅传输抽象的经验向量,用户数据保留在设备上,符合 GDPR 类监管要求。
- 更快的部署周期: 轻量化蒸馏步骤可在普通 GPU 集群上运行,实现近实时模型更新。
- 更佳的资源利用率: 更高的 token 效率转化为提供商和终端用户的推理成本降低,尤其在对延迟敏感的应用(聊天机器人、虚拟助理)中。
限制与未来工作
- 领域特定性: 实验仅限于基于文本的游戏;将 OEL 应用于开放域聊天或代码生成可能需要更丰富的奖励信号。
- 提取器复杂度: 当前的知识提取器是一个简单的编码器;更复杂的架构(例如基于图的规划器)可以捕获更丰富的策略。
- 多模态可扩展性: 将 OEL 扩展到视觉‑语言或音频‑语言模型仍是一个未解决的挑战。
- 安全与对齐: 虽然 OEL 提升了任务性能,作者指出需要防护措施,以防模型在实际使用中强化不良行为。
在线体验学习为真正自我改进的语言模型开辟了有前景的道路——将每一次部署都转化为学习机会,同时尊重用户隐私。
作者
- Tianzhu Ye
- Li Dong
- Qingxiu Dong
- Xun Wu
- Shaohan Huang
- Furu Wei
论文信息
- arXiv ID: 2603.16856v1
- 类别: cs.CL
- 出版日期: 2026年3月17日
- PDF: Download PDF