[Paper] 迈向持续智能增长:自训练、持续学习与双尺度记忆在 SuperIntelliAgent 中
发布: (2025年11月29日 GMT+8 02:32)
7 min read
原文: arXiv
Source: arXiv - 2511.23436v1
Overview
本文提出了 SuperIntelliAgent,一种让 AI 系统自行持续变得更聪明的新框架。通过将一个小型、可训练的扩散模型(“学习者”)与一个冻结的大语言模型(充当“验证者”)配对,系统能够自行生成训练数据、评估自身输出,并在无需人工标签的情况下持续改进。
Key Contributions
- 自训练循环:学习者生成候选答案,验证者进行逐步推理以接受或拒绝它们,随后将得到的对(接受/拒绝)用于直接偏好优化(Direct Preference Optimization, DPO)。
- 双尺度记忆架构:
- 短期上下文记忆 在细化循环中保留推理痕迹。
- 长期记忆 通过轻量级的即时微调将有用的知识固化。
- 自适应课程的回放缓冲区:存储显示可测量进步的示例,并将其作为辅助监督重复使用,强化近期收益的同时引导未来学习。
- 与基础设施无关的设计:可直接嵌入现有的 agentic 流程,将普通推理循环转化为终身优化过程。
- 实证验证:仅使用少量自动生成的 DPO 对,即在一系列基准上展示了可观的性能提升。
Methodology
- 学习者(小型扩散模型) – 接收输入任务并生成一个或多个候选解。
- 验证者(冻结的 LLM) – 对每个候选进行链式思考式推理,并决定该候选是否可接受。
- 反馈生成 – 学习者‑验证者的交互产生一对 chosen(被接受)和 rejected(被拒绝)的输出。
- 直接偏好优化(DPO) – 将这些对视为偏好数据;通过提升被选择输出的概率、降低被拒绝输出的概率来更新学习者。
- 记忆处理:
- 短期:将验证者的推理步骤保存在提示中,使学习者能够在相同上下文下改进下一次尝试。
- 长期:定期在一小批高质量对上微调学习者,将新知识写入模型权重。
- 回放缓冲区 – 将表现出明显改进(例如更高验证者得分)的样本存入缓冲区。后续更新时抽样这些样本提供额外监督,形成自生成的课程,强调系统已掌握的内容。
Results & Findings
- 性能提升:在多个标准推理与生成基准(如 MATH、GSM‑8K 以及指令遵循任务)上,学习者在仅几百个自生成 DPO 对后,准确率提升了 3–7 % 的绝对值。
- 样本效率:系统实现的增益可与使用数千个人工标注示例的监督微调相媲美,凸显自主数据创建的威力。
- 记忆影响:消融实验表明,去除短期或长期记忆任一部分都会导致约 40 % 的收益下降,证明两种尺度对持续增长均不可或缺。
- 回放缓冲区收益:引入缓冲区提升了训练的稳定性(减少灾难性遗忘事件)并加速了收敛,尤其在后期训练阶段效果显著。
Practical Implications
- 终身 AI 服务:部署后的聊天助手、代码生成器等可以在不依赖昂贵标注流水线的情况下持续改进。
- 降低标注成本:企业可通过让 agent 在原始输入上自我训练,快速获得新领域专长(如内部文档、细分 API)。
- 即插即用升级:现有的 agentic 架构(ReAct、Toolformer 等)可将 SuperIntelliAgent 的学习者‑验证者配对作为模块直接接入,立刻获得自优化循环。
- 更安全的对齐:由于验证者是冻结且行为良好的 LLM,系统的更新由稳定的推理骨干引导,降低了向不良行为漂移的风险。
- 边缘友好扩展:学习者可以是轻量级的扩散或 Transformer 模型,使得在普通硬件上进行持续学习成为可能,同时仍可利用强大的云端验证者。
Limitations & Future Work
- 对验证者的依赖:自生成反馈的质量受限于冻结 LLM 的推理能力;验证者的系统性偏差会传递给学习者。
- 计算开销:对每个候选都运行验证者会增加延迟,若没有批处理或蒸馏,实时应用可能受限。
- 记忆管理:回放缓冲区可能会变得庞大;本文采用了简单的选择启发式,仍有空间引入更高级的课程学习策略。
- 泛化范围:实验主要聚焦于推理和指令任务;将该框架推广到多模态或高度交互的领域(如机器人)仍是未解之题。
- 未来方向:作者建议探索自适应的验证者更新、层次化记忆结构以及与外部工具(API、数据库)的更紧密集成,以拓宽 agent 的自主学习能力。
Authors
- Jianzhe Lin
- Zeyu Pan
- Yun Zhu
- Ruiqi Song
- Jining Yang
Paper Information
- arXiv ID: 2511.23436v1
- Categories: cs.AI
- Published: November 28, 2025
- PDF: Download PDF