软件工厂与能动时刻
Source: Hacker News
软件工厂概述
我们构建了一个 Software Factory:一个非交互式的开发流水线,规格 + 场景驱动代理编写代码、运行测试框架,并在无需人工审查的情况下收敛。
下面包含了叙事形式。如果你更愿意从第一原理出发,以下约束 & 指南——迭代应用——将加速任何团队达到相同的直觉、信念1,并最终拥有自己的工厂2。
Kōan / Mantra
- 我为什么要这么做? (暗示:模型应该代替人类完成此事)
Rules
- 代码不得由人类编写
- 代码不得由人类审查
Practical Guideline
- 如果每位人类工程师今天在代币上花费不足 $1,000,则你的软件工厂还有改进空间。
StrongDM AI 故事
在 2025年7月14日,Jay Taylor 和 Navan Chauhan 与我(Justin McCarthy,联合创始人兼 CTO)一起创立了 StrongDM AI 团队。
触发因素
2024 年底,我们观察到一次关键的转折:随着 Claude 3.5 第二版的发布(2024年10月),长期视角的代理式编码工作流开始 复合正确性 而不是错误。

到 2024 年12月,模型的长期编码性能已十分显著,这一点在 Cursor 的 YOLO mode 中得到了展示。
为什么这很重要
在模型改进之前,迭代使用 LLM 进行编码任务会累积各种错误:
- 对意图的误解
- 幻想的代码或 API
- 语法错误
- 版本之间的 DRY 违规
- 库不兼容
这些错误导致应用和产品 衰退,最终 崩溃——一种“千刀万剐式的死亡”。
突破
结合 YOLO 模式,Anthropic 的更新模型让我们首次看到了我们内部现在称之为的概念:
- 非交互式开发
- 成长型软件
这些概念构成了 StrongDM AI 团队今天的方向基石。
找到旋钮,调到十一

“这些调到 11”
在我们 AI 团队的第一天的第一小时里,我们制定了一份章程,使我们走上了一系列发现的道路(我们称之为 “解锁”)。回顾起来,章程文件中最重要的一行是:

别动手!
最初这只是一个直觉——一次实验。如果不手写任何代码,我们能走多远?
走得不太远!至少在我们加入测试之前不远。然而,专注于眼前任务的代理很快就开始走捷径:
return true是通过狭窄编写的测试的好办法,但可能无法推广到你想要的软件。
仅靠测试还不够。那下面的呢:
- 集成测试?
- 回归测试?
- 端到端测试?
- 行为测试?
从测试到场景与满意度
一个反复出现的主题是agentic moment(能动时刻)表明我们需要新的语言。
例如,单词 test 已被证明不足且含糊:
- 存在于代码库中的测试可以被懒散地改写以匹配代码。
- 代码可以被改写以轻易通过测试。
场景
我们重新定义单词 scenario,用来表示端到端的 用户故事。
场景通常存放在 代码库之外(类似模型训练中的 holdout 集),并且可以被 LLM 直观理解和灵活验证。

满意度
因为我们现在构建的大多数软件都包含能动组件,我们已经从布尔式的成功定义(“测试套件全部通过”)转向 概率性和经验性的 定义。
我们使用术语 satisfaction 来量化这种验证:
在所有场景中的所有观测轨迹里,有多少比例可能满足用户?
验证数字孪生宇宙中的场景
在早期的开发周期中,我们依赖集成测试、回归测试和 UI 自动化来回答 “它在工作吗?” 这个问题。
我们发现这两种曾经可靠的技术存在两个主要局限:
| 局限 | 为什么重要 |
|---|---|
| 测试过于僵硬 | 我们的代码现在使用代理、LLM 和代理循环作为设计原语。判断成功往往需要 LLM‑as‑judge 而不是静态断言。 |
| 测试可能被奖励机制攻击 | 模型可能学会“作弊”测试框架,因此我们需要对这种游戏行为具有抵抗力的验证。 |
数字孪生宇宙 (Digital Twin Universe, DTU)
DTU 是我们的解决方案:行为克隆 第三方服务——即我们软件所依赖的服务。我们已经构建了以下服务的孪生:
- Okta
- Jira
- Slack
- Google Docs
- Google Drive
- Google Sheets
为什么 DTU 很重要
- 规模 – 以远超生产限制的容量和速率运行测试。
- 安全 – 模拟在真实服务上危险或不可能触发的故障模式。
- 成本效益 – 每小时执行数千个场景,而不会触及速率限制、触发滥用检测或产生 API 费用。
Digital Twin Universe: Okta、Jira、Google Docs、Slack、Drive 和 Sheets 的行为克隆
(点击放大)
非传统经济学
我们的 DTU 成功展示了 Agentic Moment 深刻改变软件经济学的众多方式之一。创建一个高保真克隆的重大 SaaS 应用始终在技术上可行,却从未在经济上可行。
- 多代工程师可能 想要 一个完整的内存中 CRM 副本来进行测试,但他们自行审查了提案。
- 他们甚至没有把它提交给经理,因为他们知道答案会是 不。
我们这些构建软件工厂的人必须实践一种 有意的天真:我们必须找出并消除 Software 1.0 的习惯、约定和限制。DTU 是我们的证明,六个月前不可想象的事情现在已成常规。
Software 1.0 – YouTube (reference)
阅读下一步
感谢阅读。祝您在构建自己的软件工厂时好运。