Andrej Karpathy的全新开源“autoresearch”让你每晚运行数百个 AI 实验——具有革命性意义

发布: (2026年3月10日 GMT+8 08:13)
9 分钟阅读

Source: VentureBeat

Andrej Karpathy——前特斯拉 AI 负责人、OpenAI 的联合创始人兼前成员,曾提出 “vibe coding” 这一术语——在 X 上发布了他的全新开源项目 autoresearch

这并不是一个已完成的模型或庞大的企业产品:正如他自己所承认的,它只是 GitHub 上一个 630 行的简单脚本,采用宽松、企业友好的 MIT 许可证。其雄心宏大:在我们人类睡觉时,用 AI 代理自动化科学方法

“目标是让你的代理持续、无限地实现最快的研究进展,而无需你亲自参与,”他在 X 上如此表述。

系统工作原理

  1. Autonomous optimization loop – 一个 AI 代理接收训练脚本和固定的计算预算(通常是 GPU 上 5 分钟)。
  2. 代理 读取自己的源代码,提出改进假设(例如,改变学习率或网络深度),修改代码,运行实验,并评估结果。
  3. 如果 验证损失——以 每字节比特数 (val_bpb) 为单位衡量——有所改善,则保留更改;否则撤销更改并重新尝试。

在一次通宵运行中,Karpathy 的代理完成了 126 次实验,将损失从 0.9979 → 0.9697 降低。

“看到代理自行完成整个端到端工作流……真是太疯狂了,” Karpathy 说道,并指出该代理捕捉到了他在二十多年手工工作中遗漏的注意力缩放和正则化问题。

近期成果

  • 在让代理对一个 depth=12 模型进行 两天 调优后,它完成了 ≈ 700 次自主更改
  • 代理发现了 ≈ 20 项增量改进,这些改进能够完美迁移到更大的模型上。
  • 将这些改进叠加后,使排行榜上的 “Time to GPT‑2” 指标从 2.02 h → 1.80 h 降低(实现了 11 % 的效率提升),而这还是在 Karpathy 认为已经调优得相当好的项目上实现的。

这不仅仅是一个生产力技巧;它是对智能精炼方式的 根本性转变。通过为代码自动化 科学方法,Karpathy 将机器学习转变为一种以硅的速度而非人类思维速度运行的进化过程。

更广泛的 AI/ML 社区在 X 上迅速意识到,这一过程可以远超计算机科学的应用——包括 营销、健康,以及基本上所有需要研究的领域

自动研究广泛传播

The reaction was swift and viral, with Karpathy’s post garnering > 8.6 M views in two days as builders and researchers scrambled to scale the “Karpathy loop”.

Hyperspace AI

  • Varun Mathur,AI 工具聚合平台 Hyperspace AI 的 CEO,将单代理循环分布到 点对点网络。每个运行 Hyperspace 代理的节点都成为了自主研究者。
  • 3 月 8–9 日之夜:Hyperspace 网络上的 35 个自主代理 在完全无人监督的情况下运行了 333 次实验。结果堪称新兴策略的示范课:
观察细节
硬件多样性作为特性H100 GPU 采用“蛮力”寻找激进的学习率,而仅使用 CPU 的笔记本代理则被迫更聪明,专注于初始化策略(Kaiming、Xavier)和归一化选择。
基于 Gossip 的发现使用 GossipSub 协议,代理实时共享成功。当一个代理发现 Kaiming 初始化将损失降低了 21 % 时,这一想法像数字病毒一样传播;数小时内,另外 23 个代理 采纳了该发现。
历史压缩仅在 17 小时 内,代理们独立重新发现了机器学习里程碑——RMSNormtied embeddings 等——这些成果在人类实验室(Google Brain、OpenAI)花费了近 八年 才正式确立。

每年进行 36,500 次营销实验,而不是 30 次

当机器学习纯粹主义者专注于损失曲线时,商业世界看到了另一场革命。

Eric Siu,广告公司 Single Grain 的创始人,将自动研究(autoresearch)应用于营销的“实验循环”:
“大多数营销团队每年进行 约 30 次实验。下一代将进行 36,500+ 次。轻而易举。”
“他们会在睡觉时进行实验。”

Siu 的框架

  1. 用营销资产(着陆页、广告创意、冷邮件)替代训练脚本
  2. 代理 修改变量(主题行、CTA),部署它,测量 正面回复率,并保留或丢弃该更改。

Siu 认为,这会生成一个 “专有地图”,展示哪些内容能引起特定受众的共鸣——这是一道不是由代码构成,而是由 实验历史 构建的护城河。

“获胜的公司不会拥有更好的营销人员;它们会拥有更快的实验循环。” – Siu

社区讨论与“破坏”验证集

尽管热情高涨,GitHub Discussions 揭示了一个正在努力应对如此快速、自动化进展影响的社区。

关注点评论
过度优化陷阱研究员 alexisthual: “你不担心进行如此多的实验最终会 ‘破坏’ 验证集 吗?” 人们担心代理可能会对测试数据的细微特征过拟合,而不是实现通用智能。
收益的意义用户 samionb: “从 0.9979 → 0.9697 的下降真的值得注意吗?”
Karpathy 的回复: “我们所做的只是每单位计算优化性能……这些是真实且显著的提升。”
人类因素在 X 平台上,用户 witcheer,加密平台 Yari Finance 的增长主管,记录了 … (讨论在帖子中继续)

自动研究洞见

“模型通过变得更简洁而变得更好”

团队在一台 Mac Mini M4 上进行了一夜的实验。35 次尝试中,有 26 次失败或崩溃,但七次成功的运行显示,模型在变得更简洁时得到了改进。这一洞见——少即是多——是在没有任何人为干预的情况下得出的。

未来:好奇心成为瓶颈

autoresearch 的发布指向了一个未来,在这个未来中,得益于简洁的 AI 指令机制,人类的角色从 实验者 转变为 实验设计者

随着 DarkMatterOptimization ArenaNanoClaw 等工具的出现并支持这一群体,AI 进步的瓶颈不再是“肉体计算机”(Karpathy 用来指代人脑)——即我们编写代码的能力——而是 我们定义搜索约束的能力

Andrej Karpathy 再次改变了氛围。我们不再仅仅是编写模型;我们正在 播种生态系统,让它们在我们睡觉时自行学习

0 浏览
Back to Blog

相关文章

阅读更多 »