[Paper] NNGPT:重新思考使用大型语言模型的 AutoML

发布: (2025年11月25日 GMT+8 22:10)
7 min read
原文: arXiv

Source: arXiv - 2511.20333v1

概览

本文介绍了 NNGPT,一个开源的 AutoML 框架,可将大型语言模型(LLM)转化为用于设计、训练和评估神经网络(尤其是计算机视觉任务)的自我改进引擎。通过闭环实现模型生成、性能评估和 LLM 微调,NNGPT 能在无需人工干预的情况下持续扩展其可行架构的“目录”。

主要贡献

  • 统一的 LLM 驱动 AutoML 流程:在同一工作流中结合架构合成、超参数优化、提前停止/准确率预测以及代码感知模型生成。
  • 自我改进循环:生成的模型被执行,其结果反馈用于微调 LLM,有效增长神经网络设计的数据集。
  • NN‑RAG(Neural‑Network Retrieval‑Augmented Generation):一种检索增强模块,从精选语料库中组装 PyTorch 代码块,在 1,289 条目标规范上实现 73 % 的可执行性。
  • 以更少的试验实现竞争性能:一次性准确率预测可匹配传统搜索式 AutoML;超参数优化的 RMSE 为 0.60,优于 Optuna 的 0.64;代码感知预测器的 RMSE 为 0.14(Pearson r = 0.78)。
  • 可扩展的生成能力:已验证生成超过 5,000 个模型,展示了框架自主探索设计空间的能力。

方法论

  1. 基于提示的生成 – 将单条自然语言提示输入预训练 LLM(如 GPT‑4),让其输出完整的 PyTorch 流程:数据预处理、模型架构和超参数。
  2. 执行与评估 – 将生成的脚本端到端运行在目标数据集上,记录指标(准确率、训练时间、提前停止信号)。
  3. 反馈循环 – 将结果存入 LEMUR 数据集,这是一套经审计的模型规格与结果集合。随后在不断增长的语料上微调 LLM,以提升下一轮生成质量。
  4. 检索增强合成(NN‑RAG) – 当 LLM 需要生成特定代码块(例如自定义残差单元)时,首先从 LEMUR 语料库检索相似且已验证的片段,然后根据当前上下文进行适配。
  5. 辅助预测器 – 在 LEMUR 上训练的轻量回归模型可预测生成代码的最终准确率或提前停止点,从而在耗时训练前剔除低潜力候选。
  6. 强化学习 – 将整个流水线视为 RL 环境,以验证性能作为奖励;策略更新进一步引导 LLM 产生高产出设计。

结果与发现

组件指标NNGPT 表现基线 / 现有方法
NN‑RAG 可执行性可运行脚本比例73 %(1,289 条目标)< 50 %(普通 LLM 生成)
超参数优化 (HPO)预测值与实际性能的 RMSE0.60Optuna 0.64
代码感知准确率预测器RMSE / Pearson r0.14 / 0.78N/A(首创)
一次性预测 vs. 搜索式 AutoML最终验证准确率相当(与多次试验搜索相差 ≤1 %)需要数十次试验
整体模型生成已验证模型数量>5 000

这些数据表明,NNGPT 能以远少于传统 AutoML 工具的计算周期生成可用且高性能的模型,并且通过每次运行不断自我提升。

实际意义

  • 快速原型 – 开发者只需一次提示即可获得可直接运行的 PyTorch 模型,省去数周的手工架构搜索。
  • 成本效益的 AutoML – 通过提前预测性能并剔除劣质候选,组织可以大幅削减 GPU 使用时长,使 AutoML 对小团队或边缘设备开发更具可行性。
  • 持续改进 – 随着内部生成模型的增多,LLM 能在专有数据上自行微调,形成适配公司特定数据分布的定制 AutoML 引擎。
  • 即插即用的集成 – PyTorch 适配器与框架无关,同一流水线可通过少量修改切换到 TensorFlow 或 JAX,便于在现有代码库中采用。
  • 开源生态 – 代码、提示和检查点计划公开发布,社区可扩展 NN‑RAG、贡献新检索语料库,或将系统专化到视觉以外的领域(如 NLP 或强化学习)。

局限性与未来工作

  • 领域聚焦 – 目前实验仅限于计算机视觉任务;拓展至其他模态可能需要新的检索语料库和提示工程。
  • LLM 规模依赖 – 高质量生成仍依赖大型专有模型(如 GPT‑4),使用更小的开源模型时性能可能下降。
  • 执行失败 – 虽然 NN‑RAG 将可执行性提升至 73 %,仍有约四分之一的脚本会崩溃,表明需要更好的代码消毒或静态分析。
  • 反馈循环的可扩展性 – 对不断增长的 LEMUR 数据集进行 LLM 微调可能变得计算昂贵,文中建议采用增量或 adapter‑based 训练策略。
  • 强化学习的稳定性 – RL 组件仍处于初期阶段,易出现高方差;未来工作将探索更稳健的策略梯度方法和课程学习。

作者计划通过扩展语料库至多模态数据集、尝试开源 LLM、以及集成静态代码检查器来提升可执行性上限,从而解决上述问题。

作者

  • Roman Kochnev
  • Waleed Khalid
  • Tolgay Atinc Uzun
  • Xi Zhang
  • Yashkumar Sanjaybhai Dhameliya
  • Furui Qin
  • Chandini Vysyaraju
  • Raghuvir Duvvuri
  • Avi Goyal
  • Dmitry Ignatov
  • Radu Timofte

论文信息

  • arXiv ID: 2511.20333v1
  • 分类: cs.AI, cs.LG, cs.NE
  • 发布日期: 2025 年 11 月 25 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »