[Paper] SE-Bench:基准测试自我进化与知识内化
发布: (2026年2月5日 GMT+8 01:58)
7 min read
原文: arXiv
Source: arXiv - 2602.04811v1
概述
论文 SE‑Bench: Benchmarking Self‑Evolution with Knowledge Internalization 解决了现代 AI 代理面临的核心挑战:它们能否真正 学习 在运行时新工具或库,并在之后无需任何外部帮助就使用这些知识?通过将熟悉的 NumPy 包转换为一个函数名被打乱的“mystery”库,作者们创建了一个干净的测试平台,成功完全取决于模型在训练期间是否已经内化了新的 API。
关键贡献
- SE‑Bench 诊断套件 – 一个可复现的环境,将类似 NumPy 的库隐藏在随机标识符后面,迫使代理记忆 API 而不是依赖已有知识。
- Open‑Book 悖论发现 – 表明在训练期间提供参考文档实际上会损害长期记忆;“闭卷”训练迫使模型将知识压缩到权重中。
- RL 差距分析 – 实证表明,标准的 PPO 风格强化学习由于裁剪和负梯度效应,难以完全内化新知识。
- Self‑Play + 监督微调 (SFT) 流程 – 证明只要使用监督数据进行微调而非纯 RL,代理可以生成自己的噪声任务并仍然学习隐藏的 API。
- 开源发布 – 代码、数据和评估脚本已公开,可让社区对未来的自我进化方法进行基准测试。
方法论
- NumPy 混淆 – 作者对 NumPy 库进行混淆,将每个函数/类重命名为随机标记(例如
np.mean→zq_42),并打乱随附的文档。 - 训练方案
- 闭卷训练:模型在学习过程中从未看到文档;它必须仅通过交互轨迹推断 API。
- 开卷训练:模型在微调期间可以访问文档(作为基线)。
- 强化学习:使用 PPO,奖励为二元(正确/错误解答)。
- 自我对弈:模型生成自己的编码提示,解决它们,然后在生成的对上进行微调。
- 评估 – 训练后,模型接收简单的编码问题(例如 “计算数组的和”),但 没有 文档。成功意味着模型能够正确调用混淆后的函数,证明知识真正存储在其参数中。
该设置隔离了困扰现有基准的两个混杂因素:(a) 预训练数据中对同一 API 的先前曝光,和 (b) 可能掩盖模型召回能力的任务难度。
结果与发现
| 训练模式 | 闭卷测试成功率* |
|---|---|
| Open‑Book (docs visible) | ~30 % |
| Closed‑Book (no docs) | ≈ 78 % |
| PPO RL | ≈ 45 % |
| Self‑Play + SFT | ≈ 73 % |
*成功 = 生成语法正确、能够运行并产生预期输出的程序。
- 开放书籍悖论:在微调期间访问文档会降低模型内部化 API 的能力,可能是因为优化器依赖外部参考而不是将映射压缩到权重中。
- 强化学习差距:PPO 的裁剪机制和稀疏的二元奖励阻止梯度信号完整传播随机标识符与其语义之间的细微映射。
- 自我对弈可行性:当模型自行生成训练示例并随后进行监督微调时,其性能接近闭卷训练,证明自生成数据可以作为知识内部化的可行课程。
实际影响
- 工具感知助手 – 未来的代码生成助手(例如 Copilot 风格的模型)可以被训练成在运行时学习新库,从而能够快速适应专有或新兴的 API,而无需在海量语料上重新训练。
- 设备端学习 – 闭卷训练表明,在用户设备上进行轻量微调(无需网络)可以将新能力直接嵌入模型,提升隐私性和延迟。
- 持续部署流水线 – 企业可以向模型提供一段简短的“知识倾倒”(例如内部 SDK 文档),并期望模型将其内化,从而减少手动提示工程或外部文档查找的需求。
- LLM 自我对弈课程 – 自生成任务结合 SFT 的成功为自主课程学习打开了道路,使模型能够在没有人工示例的情况下持续扩展其工具箱。
简而言之,SE‑Bench 提供了一个具体的衡量标准,用于评估 AI 系统是真正学习还是仅仅查找信息——这一区别对生产环境中的 AI 系统的可靠性、安全性和合规性至关重要。
限制与未来工作
- 基准的合成性质 – 混淆后的 NumPy 库仍然是相对简单、结构良好的 API;真实世界的 SDK 可能具有更不规则的命名、副作用和版本怪癖。
- 模型规模 – 实验在中等规模的语言模型上进行;尚不清楚这些发现如何推广到数十亿参数的大型语言模型。
- 奖励设计 – 强化学习中的二元奖励过于粗糙;更丰富、分级的奖励(例如,对正确函数使用给予部分积分)可能缩小 RL 差距。
- 长期保持 – 本研究聚焦于单次微调过程;未来工作可以考察在顺序引入多个新 API 时的灾难性遗忘。
作者计划将 SE‑Bench 扩展到多库场景,探索课程感知的 RL 算法,并在更大、商业部署的模型上测试该流水线。
作者
- Jiarui Yuan
- Tailin Jin
- Weize Chen
- Zeyuan Liu
- Zhiyuan Liu
- Maosong Sun
论文信息
- arXiv ID: 2602.04811v1
- 分类: cs.CL, cs.AI, cs.LG
- 出版日期: 2026年2月4日
- PDF: 下载 PDF