[Paper] 迈向自主长时程工程用于ML研究

发布: (2026年4月15日 GMT+8 01:55)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.13018v1

概述

本文提出了 AiScientist,一个新框架,使自主代理能够执行为期多天的端到端机器学习研究项目。通过将层次化编排器与“File‑as‑Bus”工作区相结合,该工作区能够保留持久的工件(代码、数据、分析、计划),系统能够在众多子任务之间保持一致的状态——这是之前的代理所难以实现的。

关键贡献

  • 层次化编排:顶层 Orchestrator 引导工作流,而专门的代理处理具体子任务(数据准备、模型编码、实验运行、调试)。
  • 文件即总线工作区:所有代理读取/写入共享、权限受限的文件系统,作为唯一真实来源,确保状态在数小时或数天内持续。
  • 基于状态的重新定位:代理反复重新评估最新的产物,而不是依赖短暂的对话上下文,实现“对厚状态的薄控制”。
  • 基准改进:在 PaperBench 套件上,AiScientist 将平均分提升 10.54 分,超过最强基线;在 MLE‑Bench Lite 上达到 81.82 % Any‑Medal
  • 消融证据:移除文件即总线协议导致性能下降 6.41 分(PaperBench)和 31.82 %(MLE‑Bench Lite),确认其核心作用。

方法论

  1. Orchestrator Layer – 维护一个高级路线图(例如,“理解问题 → 搭建环境 → 实现模型 → 运行实验 → 调试”)。它生成简明的摘要和工作区映射,告知下游代理哪些文件可以读取/写入。
  2. Specialized Agents – 每个代理都是由语言模型驱动的工具(例如,代码生成器、数据加载器、调试器)。被调用时,代理会在当前工作区内容上 重新定位:它加载最新的分析、计划或实验日志,然后相应地生成或更新文件。
  3. File‑as‑Bus Protocol – 工作区是一个具有明确读写权限的层级目录。文件是唯一的通信渠道;不存在隐藏的“对话记忆”。此设计迫使每一条知识都以持久的工件形式保存。
  4. Iterative Loop – 编排器监控进度,更新路线图,并触发代理,直至满足停止条件(例如,达到目标指标或耗尽时间预算)。

整个流水线使用现成的 LLM API 和轻量级文件系统包装实现,使其能够在标准云 VM 上可复现。

结果与发现

基准基线(最佳)AiScientistΔ(点/%)
PaperBench68.378.8+10.54
MLE‑Bench Lite(任意奖牌)50.0 %81.82 %+31.82 %
  • 消融实验:关闭 File‑as‑Bus(代理仅通过提示进行通信)后,PaperBench 降至 72.4,MLE‑Bench Lite 降至 50 %,突显持久状态是主要性能驱动因素。
  • 错误分析 表明,消融后大多数失败源于上下文丢失(例如,忘记了之前进行的超参数微调)。
  • 可扩展性测试:将单个实验从 2 小时延长至 24 小时,完成的子任务呈线性增长,确认编排器能够在长时程运行中保持稳定而不漂移。

Source:

实际意义

  • 加速原型设计 – 团队可以将重复性的工程工作(环境搭建、模板代码、常规超参数搜索)交给 AiScientist,解放研究人员专注于高层次的创意。
  • 研究的持续集成 – File‑as‑Bus 模型类似 CI 流水线:每一次修改都有版本、可复现且可审计,便于分布式实验室之间的协作。
  • 成本高效的云使用 – 通过持久化状态,系统可以暂停并恢复作业,从而在使用 Spot 实例时不会丢失进度。
  • 教育工具 – 新入行的机器学习工程师可以观察生成的工作空间演变,深入了解最佳实践的研究工作流。
  • 自主 AI 实验室的基础 – 这种层次化 + 持久状态的设计可以嵌入更大的 “AI‑run‑AI” 生态系统中,由一个系统设计实验,另一个系统可靠地执行实验。

限制与未来工作

  • 对 LLM 可靠性的依赖 – 代理仍然继承幻觉风险;偶尔出现的错误代码需要人工监督。
  • 文件系统瓶颈 – 大型数据集或模型检查点会给简单的文件即总线带来压力;未来工作可以集成对象存储或版本控制后端。
  • 领域特定性 – 基准测试侧重于标准的监督学习任务;将其扩展到强化学习、多模态流水线或硬件特定优化仍是未解之题。
  • 编排的可扩展性 – 虽然当前编排器只能处理单个项目,但协调数十个并发项目将需要更复杂的调度和资源管理。

作者建议探索更丰富的工件类型(例如 notebook、Docker 镜像),以及与自动调试工具的更紧密集成,作为下一步工作。

作者

  • Guoxin Chen
  • Jie Chen
  • Lei Chen
  • Jiale Zhao
  • Fanzhe Meng
  • Wayne Xin Zhao
  • Ruihua Song
  • Cheng Chen
  • Ji‑Rong Wen
  • Kai Jia

论文信息

  • arXiv ID: 2604.13018v1
  • 分类: cs.CL
  • 出版日期: 2026年4月14日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »