软件工厂与能动时刻

发布: 3天前 (2026年2月7日 GMT+8 23:05)

9 分钟阅读

原文: Hacker News

Source: Hacker News

软件工厂概述

我们构建了一个 Software Factory：一个非交互式的开发流水线，规格 + 场景驱动代理编写代码、运行测试框架，并在无需人工审查的情况下收敛。

下面包含了叙事形式。如果你更愿意从第一原理出发，以下约束 & 指南——迭代应用——将加速任何团队达到相同的直觉、信念¹，并最终拥有自己的工厂²。

Kōan / Mantra

我为什么要这么做？ (暗示：模型应该代替人类完成此事)

Rules

代码不得由人类编写
代码不得由人类审查

Practical Guideline

如果每位人类工程师今天在代币上花费不足 $1,000，则你的软件工厂还有改进空间。

StrongDM AI 故事

在 2025年7月14日，Jay Taylor 和 Navan Chauhan 与我（Justin McCarthy，联合创始人兼 CTO）一起创立了 StrongDM AI 团队。

触发因素

2024 年底，我们观察到一次关键的转折：随着 Claude 3.5 第二版的发布（2024年10月），长期视角的代理式编码工作流开始 复合正确性 而不是错误。

Compounding correctness vs. compounding error

到 2024 年12月，模型的长期编码性能已十分显著，这一点在 Cursor 的 YOLO mode 中得到了展示。

为什么这很重要

在模型改进之前，迭代使用 LLM 进行编码任务会累积各种错误：

对意图的误解
幻想的代码或 API
语法错误
版本之间的 DRY 违规
库不兼容

这些错误导致应用和产品衰退，最终崩溃——一种“千刀万剐式的死亡”。

突破

结合 YOLO 模式，Anthropic 的更新模型让我们首次看到了我们内部现在称之为的概念：

非交互式开发
成长型软件

这些概念构成了 StrongDM AI 团队今天的方向基石。

找到旋钮，调到十一

Eleven
“这些调到 11”

在我们 AI 团队的第一天的第一小时里，我们制定了一份章程，使我们走上了一系列发现的道路（我们称之为 “解锁”）。回顾起来，章程文件中最重要的一行是：

Hands off!
别动手！

最初这只是一个直觉——一次实验。如果不手写任何代码，我们能走多远？

走得不太远！至少在我们加入测试之前不远。然而，专注于眼前任务的代理很快就开始走捷径：

return true 是通过狭窄编写的测试的好办法，但可能无法推广到你想要的软件。

仅靠测试还不够。那下面的呢：

集成测试？
回归测试？
端到端测试？
行为测试？

从测试到场景与满意度

一个反复出现的主题是agentic moment（能动时刻）表明我们需要新的语言。
例如，单词 test 已被证明不足且含糊：

存在于代码库中的测试可以被懒散地改写以匹配代码。
代码可以被改写以轻易通过测试。

场景

我们重新定义单词 scenario，用来表示端到端的 用户故事。
场景通常存放在 代码库之外（类似模型训练中的 holdout 集），并且可以被 LLM 直观理解和灵活验证。

Synthetic scenario curation and shaping interface

满意度

因为我们现在构建的大多数软件都包含能动组件，我们已经从布尔式的成功定义（“测试套件全部通过”）转向 概率性和经验性的 定义。

我们使用术语 satisfaction 来量化这种验证：

在所有场景中的所有观测轨迹里，有多少比例可能满足用户？

验证数字孪生宇宙中的场景

在早期的开发周期中，我们依赖集成测试、回归测试和 UI 自动化来回答 “它在工作吗？” 这个问题。

我们发现这两种曾经可靠的技术存在两个主要局限：

局限	为什么重要
测试过于僵硬	我们的代码现在使用代理、LLM 和代理循环作为设计原语。判断成功往往需要 LLM‑as‑judge 而不是静态断言。
测试可能被奖励机制攻击	模型可能学会“作弊”测试框架，因此我们需要对这种游戏行为具有抵抗力的验证。

数字孪生宇宙 (Digital Twin Universe, DTU)

DTU 是我们的解决方案：行为克隆 第三方服务——即我们软件所依赖的服务。我们已经构建了以下服务的孪生：

Okta
Jira
Slack
Google Docs
Google Drive
Google Sheets

为什么 DTU 很重要

规模 – 以远超生产限制的容量和速率运行测试。
安全 – 模拟在真实服务上危险或不可能触发的故障模式。
成本效益 – 每小时执行数千个场景，而不会触及速率限制、触发滥用检测或产生 API 费用。

Digital Twin Universe: Okta、Jira、Google Docs、Slack、Drive 和 Sheets 的行为克隆
(点击放大)

非传统经济学

我们的 DTU 成功展示了 Agentic Moment 深刻改变软件经济学的众多方式之一。创建一个高保真克隆的重大 SaaS 应用始终在技术上可行，却从未在经济上可行。

多代工程师可能想要一个完整的内存中 CRM 副本来进行测试，但他们自行审查了提案。
他们甚至没有把它提交给经理，因为他们知道答案会是不。

我们这些构建软件工厂的人必须实践一种 有意的天真：我们必须找出并消除 Software 1.0 的习惯、约定和限制。DTU 是我们的证明，六个月前不可想象的事情现在已成常规。

Software 1.0 – YouTube (reference)

阅读下一步

原则 – 我们认为在使用代理构建软件时真实的信念
技术 – 应用这些原则的重复模式
产品 – 我们每天使用并认为其他人也会受益的工具

感谢阅读。祝您在构建自己的软件工厂时好运。

“信念”指的是当团队持续使用自动化、规格驱动的开发时产生的深层次信念。 ↩
“工厂”指的是一种可重复、自我维持的流水线，能够持续交付可投入生产的软件，且几乎不需要人工干预。 ↩

软件工厂与能动时刻

软件工厂概述

Kōan / Mantra

Rules

Practical Guideline

StrongDM AI 故事

触发因素

为什么这很重要

突破

找到旋钮，调到十一

从测试到场景与满意度

场景

满意度

验证数字孪生宇宙中的场景

数字孪生宇宙 (Digital Twin Universe, DTU)

为什么 DTU 很重要

非传统经济学

阅读下一步

相关文章

Scrap Labs – 金属3D打印机

福尔克轮

Show HN: Clawe – 开源 Trello 用于代理团队

Tambo 1.0：用于渲染 React 组件的代理的开源工具包

软件工厂概述

Kōan / Mantra

Rules

Practical Guideline

StrongDM AI 故事

触发因素

为什么这很重要

突破

找到旋钮，调到十一

从测试到场景与满意度

场景

满意度

验证数字孪生宇宙中的场景

数字孪生宇宙 (Digital Twin Universe, DTU)

为什么 DTU 很重要

非传统经济学

阅读下一步

Footnotes

相关文章

Scrap Labs – 金属3D打印机

福尔克轮

Show HN: Clawe – 开源 Trello 用于代理团队

Tambo 1.0：用于渲染 React 组件的代理的开源工具包