[Paper] DARWIN：动态代理式重写自我改进网络

发布: 3天前 (2026年2月6日 GMT+8 00:35)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.05848v1

请提供您希望翻译的具体文本内容，我将按照要求进行简体中文翻译并保留原有的格式。

概述

本文介绍了 DARWIN，一个自我改进的 GPT 系统，将语言模型视为能够相互重写训练代码的“代理”。借鉴遗传算法的思想，DARWIN 让多个 GPT 实例进行变异、评估并选择最有前景的代码更改，仅通过少量迭代就实现了效率和困惑度的可衡量提升。

Agentic code‑mutation loop：独立的 GPT 代理相互生成并应用代码编辑，模拟生物突变。
Genetic‑algorithm selection：每轮突变后，对代理进行基准测试；表现最好的代理成为下一代的种子。
Persistent JSON memory：轻量级、版本控制的日志记录每一次代码更改、推理轨迹和性能指标，支持可复现性和分析。
Bidirectional HITL interface：系统可以请求人为介入的升级（例如新数据集、脚本重构），并自动将其整合。
Proof‑of‑concept with OpenAI API + nanoGPT：使用现成的 API 和最小化的 GPT 训练栈演示概念，保持低成本的同时仍能实现可衡量的改进。

Source: …

初始化种群 – 实例化多个 GPT 代理，每个代理都有自己的一份 nanoGPT 训练脚本副本。
自我编辑阶段 – 每个代理收到描述当前训练代码及其近期表现的提示，然后提出编辑建议（例如超参数微调、数据加载器更改、优化器调整）。
变异与持久化 – 将提出的编辑应用到代码的全新副本上，并将生成的配置存入 JSON “记忆”文件，记录编辑内容、理由以及之前的状态。
评估阶段 – 执行变异后的训练（通过 OpenAI API 进行代码生成，使用本地计算进行训练），收集模型 FLOPS 利用率（MFU）和困惑度等指标。
选择 – 采用类似遗传算法的锦标赛方式，根据加权适应度函数（MFU + 困惑度）挑选出前 k 名代理。这些存活者成为下一轮的父代，继承它们的代码基。
人机交互循环 (HITL) – 当代理的推理标记出缺失资源（例如更大的语料库）时，它可以请求人工提供该资产；系统随后自动集成升级。
迭代 – 步骤 2‑6 重复固定代数（论文实验中为五代）。

指标	基准	DARWIN（5代后）	Δ
Model FLOPS Utilization (MFU)	1.00 ×	1.0126 ×	+1.26 %
Validation Perplexity	45.3	44.38	–2.07 %

自动化机器学习运维：DARWIN 的代理代码突变可以集成到 CI/CD 流水线中，持续优化训练脚本，无需手动进行超参数搜索。
成本效益的扩展：通过每次迭代提取适度的性能提升，组织可以在现有硬件上挤出更多的训练吞吐量，从而推迟昂贵的硬件升级。
自助式数据管道：人机交互（HITL）请求机制让模型能够标记缺失数据或更好的预处理步骤，使数据工程师成为“审批”角色，而非主要实现者。
开源可扩展性：由于核心循环依赖 JSON 日志和纯文本提示，开发者可以轻松接入其他模型系列（例如 LLaMA、Falcon）或自定义训练框架，摩擦极小。
研究加速：早期实验可以在廉价的云资源上运行；进化循环会呈现出有前景的代码改动，随后再进行大规模验证。

DARWIN 为“自我优化”AI 开发生态提供了引人注目的路径，使语言模型既成为其训练代码的设计者，又成为测试者。虽然仍处于起步阶段，但该方法暗示了一个未来：模型改进循环将基本实现自主化，让工程师能够专注于更高层次的系统设计。