[Paper] NNGPT：重新思考使用大型语言模型的 AutoML

发布: 2个月前 (2025年11月25日 GMT+8 22:10)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.20333v1

概览

本文介绍了 NNGPT，一个开源的 AutoML 框架，可将大型语言模型（LLM）转化为用于设计、训练和评估神经网络（尤其是计算机视觉任务）的自我改进引擎。通过闭环实现模型生成、性能评估和 LLM 微调，NNGPT 能在无需人工干预的情况下持续扩展其可行架构的“目录”。

统一的 LLM 驱动 AutoML 流程：在同一工作流中结合架构合成、超参数优化、提前停止/准确率预测以及代码感知模型生成。
自我改进循环：生成的模型被执行，其结果反馈用于微调 LLM，有效增长神经网络设计的数据集。
NN‑RAG（Neural‑Network Retrieval‑Augmented Generation）：一种检索增强模块，从精选语料库中组装 PyTorch 代码块，在 1,289 条目标规范上实现 73 % 的可执行性。
以更少的试验实现竞争性能：一次性准确率预测可匹配传统搜索式 AutoML；超参数优化的 RMSE 为 0.60，优于 Optuna 的 0.64；代码感知预测器的 RMSE 为 0.14（Pearson r = 0.78）。
可扩展的生成能力：已验证生成超过 5,000 个模型，展示了框架自主探索设计空间的能力。

基于提示的生成 – 将单条自然语言提示输入预训练 LLM（如 GPT‑4），让其输出完整的 PyTorch 流程：数据预处理、模型架构和超参数。
执行与评估 – 将生成的脚本端到端运行在目标数据集上，记录指标（准确率、训练时间、提前停止信号）。
反馈循环 – 将结果存入 LEMUR 数据集，这是一套经审计的模型规格与结果集合。随后在不断增长的语料上微调 LLM，以提升下一轮生成质量。
检索增强合成（NN‑RAG） – 当 LLM 需要生成特定代码块（例如自定义残差单元）时，首先从 LEMUR 语料库检索相似且已验证的片段，然后根据当前上下文进行适配。
辅助预测器 – 在 LEMUR 上训练的轻量回归模型可预测生成代码的最终准确率或提前停止点，从而在耗时训练前剔除低潜力候选。
强化学习 – 将整个流水线视为 RL 环境，以验证性能作为奖励；策略更新进一步引导 LLM 产生高产出设计。

组件	指标	NNGPT 表现	基线 / 现有方法
NN‑RAG 可执行性	可运行脚本比例	73 %（1,289 条目标）	< 50 %（普通 LLM 生成）
超参数优化 (HPO)	预测值与实际性能的 RMSE	0.60	Optuna 0.64
代码感知准确率预测器	RMSE / Pearson r	0.14 / 0.78	N/A（首创）
一次性预测 vs. 搜索式 AutoML	最终验证准确率	相当（与多次试验搜索相差 ≤1 %）	需要数十次试验
整体模型生成	已验证模型数量	>5 000	—

这些数据表明，NNGPT 能以远少于传统 AutoML 工具的计算周期生成可用且高性能的模型，并且通过每次运行不断自我提升。

作者计划通过扩展语料库至多模态数据集、尝试开源 LLM、以及集成静态代码检查器来提升可执行性上限，从而解决上述问题。