StrongDM 的 AI 团队在甚至不看代码的情况下构建严肃的软件

发布: (2026年2月7日 GMT+8 23:41)
12 分钟阅读

Source: Hacker News

2026年2月7日

上周,我在演示中暗示了我看到的一个团队的案例,该团队实现了丹·夏皮罗所称的 Dark Factory 级别的 AI 采用——在这种情况下,甚至没有人会查看编码代理生成的代码。该团队隶属于 StrongDM,他们刚刚公开了他们在 Software Factories and the Agentic Moment 中的工作方式的第一份描述:

我们构建了一个 Software Factory:一种非交互式开发方式,规格 + 场景驱动代理编写代码、运行测试框架,并在无需人工审查的情况下收敛。[…]

以公案或咒语的形式

  • 我为什么要这么做? (暗示:模型应该来做这件事)

规则形式

  • 代码 不得 由人类编写
  • 代码 不得 由人类审查

实际形式

  • 如果你今天每位人类工程师在代币上花费不足 $1,000,你的软件工厂还有提升空间。

我认为其中最有趣、毫无疑问的是 “代码不能由人类审查”。 当我们都知道大型语言模型容易出现非人类错误时,这怎么可能是一个明智的策略?

我最近看到许多开发者承认 2025年11月拐点,当时 Claude Opus 4.5 和 GPT 5.2 似乎在编码代理能够可靠遵循指令并承担复杂编码任务方面实现了突破。StrongDM 的 AI 团队成立于 2025年7月,基于早前与 Claude Sonnet 3.5 相关的拐点:

触发因素是 2024 年底观察到的转变:随着 Claude 3.5 第二版(2024年10月)的发布,长期代理编码工作流开始累积正确性而非错误。

2024年12月,模型的长期编码性能通过 Cursor 的 YOLO 模式 已经显而易见。

他们的新团队以 “不使用手写代码” 为规则——对 2025年7月来说是激进的,但我在 2026年1月 看到相当多有经验的开发者开始采用这种做法。

核心问题

如果你不手写任何代码,如何确保代码真的能工作?

让代理编写测试只有在它们不作弊并 assert true 时才有帮助。

这似乎是当前软件开发中最关键的问题:如果实现和测试都是由编码代理为你编写的,如何证明你所生产的软件是有效的?(参见我之前关于证明软件有效的帖子。)

StrongDM 的答案:情景测试

StrongDM 的灵感来源于 scenario testing(Cem Kaner,2003)。正如他们所描述的:

我们重新定义了 scenario(情景)一词,用来表示端到端的“用户故事”,通常存放在代码库之外(类似于模型训练中的“保留集”),这样可以被大型语言模型直观理解并灵活验证。
由于我们所开发的软件本身具有代理性成分,我们从布尔式的成功定义(“测试套件为绿色”)转向概率性和经验性的定义。我们使用 satisfaction(满意度)一词来量化这种验证:在所有情景中观察到的轨迹里,有多少比例可能满足用户?

将情景视为保留集——用于评估软件但不存放在编码代理可见的地方——令人着迷。它模拟了外部 QA 团队的激进测试——一种成本高昂但在传统软件中极为有效的质量保证方式。

数字孪生宇宙 (DTU)

给我印象最深的演示部分是 StrongDM 对 数字孪生宇宙 的概念。

他们正在构建的软件帮助在一套相互关联的服务中管理用户权限。这本身就很显眼——安全软件是你最不敢想象会使用未经审查的 LLM 代码来构建的东西!
[数字孪生宇宙] 是我们软件所依赖的第三方服务的行为克隆。我们为 Okta、Jira、Slack、Google Docs、Google Drive 和 Google Sheets 构建了孪生体,复制它们的 API、边缘情况以及可观察行为。

通过 DTU,他们可以:

  • 在远超生产限制的量级和速率上进行验证,
  • 测试在真实服务上危险或不可能进行的故障模式,
  • 每小时运行数千个场景,而不会触及速率限制、触发滥用检测或产生 API 成本。

他们是如何构建孪生体的

  1. 将目标服务(例如 Okta)的完整公开 API 文档导入到代理框架中。
  2. 指示代理生成一个自包含的 Go 二进制文件,模拟该 API。
  3. 可选地在其上添加简化的 UI,以帮助完成仿真。

现在,拥有这些独立的服务克隆——不受速率限制或使用配额约束——他们的模拟测试大军可以尽情发挥。他们的场景测试变成了脚本,供代理在新系统构建过程中不断执行。

示例:Slack 双胞胎

下面的截图显示了由 DTU 生成的类似 Slack 的界面。它演示了测试过程的工作方式,展示了一系列即将需要访问不同模拟系统的模拟 Okta 用户。

[Image: Screenshot of a Slack‑like interface titled “DTU Slack” showing a thread view (Thread — C4B9FBB97) with “Focus first” and “Leave” buttons. The left sidebar lists channels including #org‑general (182), #general (0) (shared×2), #it‑support (0), #channel‑0002 (0) (shared×2), #channel‑0003 (0) through #channel‑0020 (0), #org‑finance (1), and a DMs section with a “Start” button. A “Create” button is visible at the bottom.]

(图片占位符 – 将 # 替换为实际的图片 URL。)

按钮出现在侧边栏的顶部。 主线程显示了大约九条来自 Okta ID 用户的自动化介绍消息(例如 @okta-u-423438-00001@okta-u-423438-00002 等),所有消息的时间戳均为 2025‑11‑12Z,时间介于 18:50:3118:51:51 之间。

每条消息的格式如下:

“Hi team! I’m [Name], joining as Employee in general.
Key skills: [fictional skill phrases].
Excited to contribute!”

所有用户的头像图标都是红色/橙色的 “O”。

Slack clone screenshot

为什么这很重要

能够快速启动一个有用的 Slack 子集克隆,展示了新一代编码代理工具的颠覆性潜力。

创建高保真克隆大型 SaaS 应用一直是可能的,但从未在经济上可行。许多代工程师可能想要一个完整的内存中 CRM 副本用于测试,却自我审查了构建的提议。

技术页面 也值得一看。除了 Digital Twin Universe,它还引入了以下术语:

StrongDM AI 发布

Attractor

  • Repository: github.com/strongdm/attractor
  • Description: 他们软件工厂核心的非交互式编码代理。
  • Note: 该仓库不包含 代码,只有三个 markdown 文件,详细描述了规范,还附有一条 README 说明,建议将这些规范输入您选择的编码代理。

CXDB

  • Repository: github.com/strongdm/cxdb
  • Description: 更传统的发布,包含:
    • 16 000 行 Rust
    • 9 500 行 Go
    • 6 700 行 TypeScript
  • Function: 他们的 “AI Context Store” —— 用于在不可变有向无环图中存储对话历史和工具输出的系统。
  • Comparison: 类似于我的 LLM 工具的 SQLite logging mechanism,但更为复杂。我可能需要 基因转移 一些想法!

对未来的一瞥?

我在十月时受邀参加了 StrongDM AI 团队的参观,作为少数受邀嘉宾之一。

  • Team: Justin McCarthy、Jay Taylor 和 Navan Chauhan(团队成立仅三个月)。
  • Demo: 他们的编码代理框架的工作演示、半打服务的数字孪生宇宙克隆,以及一群模拟测试代理在场景中运行的演示。
  • Timing: 这发生在 Opus 4.5 / GPT 5.2 发布之前——这些发布让代理式编码显著更可靠(演示后一月)。

这让我看到软件开发的一个潜在未来:工程师不再仅仅是编写代码,而是 构建并随后半监控构建代码的系统——即 暗工厂

等等,每位工程师每天 $1,000 ?

我在最初发布的版本中略过了这个细节,但它值得认真关注。

  • 成本影响: 如果这些模式真的会让每位工程师每月增加 $20 000 / 月 的预算开支,那么它们对我来说就不那么有吸引力了。
  • 商业模式问题: 到那时,关键在于你是否能够打造足够盈利的产品线,以承担以这种方式开发软件的巨额开销。
  • 竞争风险: 任何竞争对手都可能只用几个小时的编码‑代理工作就复制你的最新功能。

我希望这些模式能够以更低的成本投入使用。我个人发现 $200 / 月 Claude Max 计划 已经为我提供了足够的空间来尝试不同的代理模式,但我并没有让一群 QA 测试员 24/7 地工作!

要点

  • 即使是那些不打算在代币费用上花费数千美元的团队和个人,也能从 StrongDM 学到很多。
  • 我尤其关注 让代理证明其代码有效而无需审查他们所生成的每一行代码 这一问题。
0 浏览
Back to Blog

相关文章

阅读更多 »

Scrap Labs – 金属3D打印机

真实金属打印。由废料构建。 在Scrap Labs,我们的使命是通过最先进的金属打印技术赋能建设者和创作者,使其……

福尔克轮

概述:世界上唯一的旋转船闸——Falkirk Wheel,将Forth & Clyde Canal与Union Canal在35米高空相连,允许船只航行……