[Paper] 迈向持续智能增长：自训练、持续学习与双尺度记忆在 SuperIntelliAgent 中

发布: 2个月前 (2025年11月29日 GMT+8 02:32)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.23436v1

Overview

本文提出了 SuperIntelliAgent，一种让 AI 系统自行持续变得更聪明的新框架。通过将一个小型、可训练的扩散模型（“学习者”）与一个冻结的大语言模型（充当“验证者”）配对，系统能够自行生成训练数据、评估自身输出，并在无需人工标签的情况下持续改进。

Key Contributions

自训练循环：学习者生成候选答案，验证者进行逐步推理以接受或拒绝它们，随后将得到的对（接受/拒绝）用于直接偏好优化（Direct Preference Optimization, DPO）。
双尺度记忆架构：
- 短期上下文记忆 在细化循环中保留推理痕迹。
- 长期记忆 通过轻量级的即时微调将有用的知识固化。
自适应课程的回放缓冲区：存储显示可测量进步的示例，并将其作为辅助监督重复使用，强化近期收益的同时引导未来学习。
与基础设施无关的设计：可直接嵌入现有的 agentic 流程，将普通推理循环转化为终身优化过程。
实证验证：仅使用少量自动生成的 DPO 对，即在一系列基准上展示了可观的性能提升。

Methodology

学习者（小型扩散模型） – 接收输入任务并生成一个或多个候选解。
验证者（冻结的 LLM） – 对每个候选进行链式思考式推理，并决定该候选是否可接受。
反馈生成 – 学习者‑验证者的交互产生一对 chosen（被接受）和 rejected（被拒绝）的输出。
直接偏好优化（DPO） – 将这些对视为偏好数据；通过提升被选择输出的概率、降低被拒绝输出的概率来更新学习者。
记忆处理：
- 短期：将验证者的推理步骤保存在提示中，使学习者能够在相同上下文下改进下一次尝试。
- 长期：定期在一小批高质量对上微调学习者，将新知识写入模型权重。
回放缓冲区 – 将表现出明显改进（例如更高验证者得分）的样本存入缓冲区。后续更新时抽样这些样本提供额外监督，形成自生成的课程，强调系统已掌握的内容。

Results & Findings

性能提升：在多个标准推理与生成基准（如 MATH、GSM‑8K 以及指令遵循任务）上，学习者在仅几百个自生成 DPO 对后，准确率提升了 3–7 % 的绝对值。
样本效率：系统实现的增益可与使用数千个人工标注示例的监督微调相媲美，凸显自主数据创建的威力。
记忆影响：消融实验表明，去除短期或长期记忆任一部分都会导致约 40 % 的收益下降，证明两种尺度对持续增长均不可或缺。
回放缓冲区收益：引入缓冲区提升了训练的稳定性（减少灾难性遗忘事件）并加速了收敛，尤其在后期训练阶段效果显著。

Practical Implications

终身 AI 服务：部署后的聊天助手、代码生成器等可以在不依赖昂贵标注流水线的情况下持续改进。
降低标注成本：企业可通过让 agent 在原始输入上自我训练，快速获得新领域专长（如内部文档、细分 API）。
即插即用升级：现有的 agentic 架构（ReAct、Toolformer 等）可将 SuperIntelliAgent 的学习者‑验证者配对作为模块直接接入，立刻获得自优化循环。
更安全的对齐：由于验证者是冻结且行为良好的 LLM，系统的更新由稳定的推理骨干引导，降低了向不良行为漂移的风险。
边缘友好扩展：学习者可以是轻量级的扩散或 Transformer 模型，使得在普通硬件上进行持续学习成为可能，同时仍可利用强大的云端验证者。

Limitations & Future Work

对验证者的依赖：自生成反馈的质量受限于冻结 LLM 的推理能力；验证者的系统性偏差会传递给学习者。
计算开销：对每个候选都运行验证者会增加延迟，若没有批处理或蒸馏，实时应用可能受限。
记忆管理：回放缓冲区可能会变得庞大；本文采用了简单的选择启发式，仍有空间引入更高级的课程学习策略。
泛化范围：实验主要聚焦于推理和指令任务；将该框架推广到多模态或高度交互的领域（如机器人）仍是未解之题。
未来方向：作者建议探索自适应的验证者更新、层次化记忆结构以及与外部工具（API、数据库）的更紧密集成，以拓宽 agent 的自主学习能力。

Authors

Jianzhe Lin
Zeyu Pan
Yun Zhu
Ruiqi Song
Jining Yang

Paper Information

arXiv ID: 2511.23436v1
Categories: cs.AI
Published: November 28, 2025
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 思考即行动：通过多轮交互在 LLM 中构建高效的 World Model 推理

开发稳健的世界模型推理对于大型语言模型（LLM）代理在复杂环境中进行规划和交互至关重要。虽然多轮交互……

[Paper] ThetaEvolve：测试时学习在开放问题上

近期在大型语言模型（LLMs）方面的进展已经促成了数学发现的突破，以 AlphaEvolve 为例，这是一个闭源系统，...

[Paper] 进步的代价：算法效率与 AI 推理成本下降

近年来，语言模型在高级基准上取得了巨大的进展，但这些进展在很大程度上只能通过使用更昂贵的模型来实现……

[Paper] Physics-Informed Neural Networks 用于热物性属性检索

Inverse heat problems 指的是在已观测或已知的热扩散行为下，对材料热物理属性进行估计。Inverse heat problems 已经…