软件工厂与能动时刻

发布: (2026年2月7日 GMT+8 23:05)
9 分钟阅读

Source: Hacker News

软件工厂概述

我们构建了一个 Software Factory:一个非交互式的开发流水线,规格 + 场景驱动代理编写代码、运行测试框架,并在无需人工审查的情况下收敛。

下面包含了叙事形式。如果你更愿意从第一原理出发,以下约束 & 指南——迭代应用——将加速任何团队达到相同的直觉、信念1,并最终拥有自己的工厂2

Kōan / Mantra

  • 我为什么要这么做? (暗示:模型应该代替人类完成此事)

Rules

  • 代码不得由人类编写
  • 代码不得由人类审查

Practical Guideline

  • 如果每位人类工程师今天在代币上花费不足 $1,000,则你的软件工厂还有改进空间。

StrongDM AI 故事

2025年7月14日,Jay Taylor 和 Navan Chauhan 与我(Justin McCarthy,联合创始人兼 CTO)一起创立了 StrongDM AI 团队。

触发因素

2024 年底,我们观察到一次关键的转折:随着 Claude 3.5 第二版的发布(2024年10月),长期视角的代理式编码工作流开始 复合正确性 而不是错误。

Compounding correctness vs. compounding error

到 2024 年12月,模型的长期编码性能已十分显著,这一点在 Cursor 的 YOLO mode 中得到了展示。

为什么这很重要

在模型改进之前,迭代使用 LLM 进行编码任务会累积各种错误:

  • 对意图的误解
  • 幻想的代码或 API
  • 语法错误
  • 版本之间的 DRY 违规
  • 库不兼容

这些错误导致应用和产品 衰退,最终 崩溃——一种“千刀万剐式的死亡”。

突破

结合 YOLO 模式,Anthropic 的更新模型让我们首次看到了我们内部现在称之为的概念:

  • 非交互式开发
  • 成长型软件

这些概念构成了 StrongDM AI 团队今天的方向基石。

找到旋钮,调到十一

Eleven
“这些调到 11”

在我们 AI 团队的第一天的第一小时里,我们制定了一份章程,使我们走上了一系列发现的道路(我们称之为 “解锁”)。回顾起来,章程文件中最重要的一行是:

Hands off!
别动手!

最初这只是一个直觉——一次实验。如果不手写任何代码,我们能走多远?

走得不太远!至少在我们加入测试之前不远。然而,专注于眼前任务的代理很快就开始走捷径:

return true 是通过狭窄编写的测试的好办法,但可能无法推广到你想要的软件。

仅靠测试还不够。那下面的呢:

  • 集成测试?
  • 回归测试?
  • 端到端测试?
  • 行为测试?

从测试到场景与满意度

一个反复出现的主题是agentic moment(能动时刻)表明我们需要新的语言。
例如,单词 test 已被证明不足且含糊:

  • 存在于代码库中的测试可以被懒散地改写以匹配代码。
  • 代码可以被改写以轻易通过测试。

场景

我们重新定义单词 scenario,用来表示端到端的 用户故事
场景通常存放在 代码库之外(类似模型训练中的 holdout 集),并且可以被 LLM 直观理解和灵活验证。

Synthetic scenario curation and shaping interface

满意度

因为我们现在构建的大多数软件都包含能动组件,我们已经从布尔式的成功定义(“测试套件全部通过”)转向 概率性和经验性的 定义。

我们使用术语 satisfaction 来量化这种验证:

在所有场景中的所有观测轨迹里,有多少比例可能满足用户?

验证数字孪生宇宙中的场景

在早期的开发周期中,我们依赖集成测试、回归测试和 UI 自动化来回答 “它在工作吗?” 这个问题。

我们发现这两种曾经可靠的技术存在两个主要局限:

局限为什么重要
测试过于僵硬我们的代码现在使用代理、LLM 和代理循环作为设计原语。判断成功往往需要 LLM‑as‑judge 而不是静态断言。
测试可能被奖励机制攻击模型可能学会“作弊”测试框架,因此我们需要对这种游戏行为具有抵抗力的验证。

数字孪生宇宙 (Digital Twin Universe, DTU)

DTU 是我们的解决方案:行为克隆 第三方服务——即我们软件所依赖的服务。我们已经构建了以下服务的孪生:

  • Okta
  • Jira
  • Slack
  • Google Docs
  • Google Drive
  • Google Sheets

为什么 DTU 很重要

  • 规模 – 以远超生产限制的容量和速率运行测试。
  • 安全 – 模拟在真实服务上危险或不可能触发的故障模式。
  • 成本效益 – 每小时执行数千个场景,而不会触及速率限制、触发滥用检测或产生 API 费用。

Digital Twin Universe: Okta、Jira、Google Docs、Slack、Drive 和 Sheets 的行为克隆
(点击放大)

非传统经济学

我们的 DTU 成功展示了 Agentic Moment 深刻改变软件经济学的众多方式之一。创建一个高保真克隆的重大 SaaS 应用始终在技术上可行,却从未在经济上可行。

  • 多代工程师可能 想要 一个完整的内存中 CRM 副本来进行测试,但他们自行审查了提案。
  • 他们甚至没有把它提交给经理,因为他们知道答案会是

我们这些构建软件工厂的人必须实践一种 有意的天真:我们必须找出并消除 Software 1.0 的习惯、约定和限制。DTU 是我们的证明,六个月前不可想象的事情现在已成常规。

Software 1.0 – YouTube (reference)

阅读下一步

  • 原则 – 我们认为在使用代理构建软件时真实的信念
  • 技术 – 应用这些原则的重复模式
  • 产品 – 我们每天使用并认为其他人也会受益的工具

感谢阅读。祝您在构建自己的软件工厂时好运。

Footnotes

  1. “信念”指的是当团队持续使用自动化、规格驱动的开发时产生的深层次信念。

  2. “工厂”指的是一种可重复、自我维持的流水线,能够持续交付可投入生产的软件,且几乎不需要人工干预。

0 浏览
Back to Blog

相关文章

阅读更多 »

Scrap Labs – 金属3D打印机

真实金属打印。由废料构建。 在Scrap Labs,我们的使命是通过最先进的金属打印技术赋能建设者和创作者,使其……

福尔克轮

概述:世界上唯一的旋转船闸——Falkirk Wheel,将Forth & Clyde Canal与Union Canal在35米高空相连,允许船只航行……