我醒来时看到14个我没写的 PR
Source: Dev.to

醒来时看到 14 个我没有写的 Pull Request。我的 AI 从午夜开始不停地重构一个我已经好几周都在回避的模块。大部分都不错,但有些错误是我如果不喝咖啡根本抓不住的。
这种情况越来越频繁。Karpathy 的 Autoresearch 项目整夜启动并拆除数百个机器学习实验。Claude Code 现在内置了检查点和回滚功能,能够自行撤销错误的工作。人们真的在睡前把明天的工作交给终端去完成。
但没有人谈论的,是早晨的审查问题。
审查自主工作是一种考古
你写代码,了解每一个决策。别人写代码,你可以通过 diff 跟随他们的逻辑。代理在你睡觉时写了 47 次提交——这就是考古。你在从输出中逆向推断意图。
今天早上,我花了一个半小时审查代理六小时的工作。如果它是正确的,这相当于 4 倍的收益。
但审查的难度比直接写代码更大。我不是在检查它是否能正常运行,而是在评估它的长期工程质量:
- 它是否符合我们的抽象层?
- 人类工程师会做同样的调整吗?
- 我是否在不知不觉中加深技术债务?
工具链的缺口
现有系统还未为此而构建。当每一行代码的责任都归于代理时,git blame 已经毫无用处。PR 描述只能告诉你 发生了什么 —— 而不是 为什么,以及在其他可选方案中它为何选择了这个。你无法重放代码作者的决策树。
真正有帮助的做法
有几件事确实起了作用:
- 为代理提供 极其详细的参数,而不是宽泛的目标
- 添加 提交后钩子,运行完整的测试套件,这样你只审查通过的代码
- 把它限制在单个文件,而不是让它在二十个文件之间爬行
真正的转变
我仍然认为,真正的转变不是 AI 写代码。两年前我们已经实现了那一点。现在是 AI 连续数小时不间断地写代码。这把开发者的工作从写代码转变为审查代码——审查自主工作是一种根本不同于审查人类代码的技能。🚀
你的夜间代理是怎么配置的?还是说你仍然所有工作都同步进行?