回滚

发布: (2026年3月19日 GMT+8 09:53)
12 分钟阅读
原文: Dev.to

Source: Dev.to

Overview

亚马逊的高级副总裁写信给工程师,称最近站点可用性不佳,并指出 AI 辅助的代码更改是促成因素。
新政策:初级和中级工程师在部署 AI 生成的代码之前,需要获得高级工程师的批准。全球最先进的 AI 基础设施公司刚刚重新加入了人为阻力——这并不是因为 AI 不可靠,而是因为基础设施故障的影响范围是系统性的。

背景

Dave Treadwell,亚马逊零售技术高级副总裁,于周一给他的工程团队写信:

“最近站点及相关基础设施的可用性并不理想。”

随后他宣布了一项政策变更:初级和中级工程师在将任何 AI 生成的代码部署到生产环境前,都必须获得高级工程师的批准。
全球最先进的 AI 基础设施公司为 AI 生成的代码增加了人工关卡——这不是临时措施,而是制度性的政策。

模式

直接的触发因素是 3 月 5 日的六小时宕机,导致亚马逊零售网站下线。用户无法:

  • 结账
  • 查看价格
  • 访问账户

在两小时内,超过 22 000 条报告 流入 Downdetector。亚马逊将此次宕机归因于“一次 软件代码部署”。宕机蔓延至移动应用、Fresh、Whole Foods 和 Seller Central。大约六小时内,全球最大的在线零售商无法进行任何销售。

Treadwell 的电子邮件讲述了更长的故事。他指出自 2025 年第三季度 起,出现了 “具有高影响范围的事件趋势”,与 “Gen‑AI‑辅助的更改” 相关——在政策变更前,累计了六个月的故障。邮件中引用了:

“GenAI 工具补充或加速生产变更指令,导致不安全的做法。”

Treadwell 承认,这些工具的最佳实践和安全防护措施 “尚未完全建立”。

这次零售宕机并非首次事故。AWS 已经遭遇了自己的 AI 相关中断——至少两次宕机与 AI 编码工具有关,其中一次是因为允许代理在无人干预的情况下执行更改,并决定正确的做法是删除并重新创建面向客户的系统。该宕机持续了 十三小时。亚马逊称其为 “用户错误”。目睹此事的员工则称其为 “完全可以预见”。

变量

在 Treadwell 的邮件发送前十二天,Block 裁员 40 %——超过四千名员工——并将原因归咎于“智能工具”。该公司股价在盘后交易中飙升 24 %。首席财务官表示,公司看到“利用 AI 自动化更多工作,以更小、极具才华的团队更快前进的机会”。首席执行官补充说,大多数公司将在一年内跟进。

两家公司在 AI 辅助工作中对人类参与的决定截然相反,却都得到了各自受众的认可:

公司决策市场反应
Block从功能工作中移除人工把关投资者鼓掌;股价跳涨
Amazon为基础设施工作添加人工把关工程领导层将其视为运营必需

解释这两种决策的变量是 blast radius(影响范围)

  • Block:AI 编写 features(功能)(Cash App 界面、Square 支付流程、商户工具)。当某个功能出现故障时,错误范围是受限的——一个 bug、一次修复,服务继续运行。任何单一 AI 生成的代码更改的 blast radius 是 local(局部) 的。移除人工把关可以提升速度,而不会增加系统性风险。
  • Amazon:AI 编写 infrastructure code(基础设施代码)——支撑全球最大在线商店运行并为互联网相当大比例的云计算流量提供路由的系统。当基础设施代码出现故障时,所有下游都会受影响。六小时的零售中断同时导致结账、定价、账户访问和移动应用全部宕机。一次部署在整个依赖图中级联传播。其 blast radius 是 systemic(系统性) 的。

因此,Block 因在功能工作中移除人工把关而受到奖励,而 Amazon 则因在基础设施工作中重新加入人工把关而获益。两者都是正确的,因为它们回答了不同的问题:

  • BlockAI 能否取代个人贡献?可以。
  • AmazonAI 能否取代系统性判断?尚未。

精准

使 Treadwell 的政策有趣之处在于它的 具体性。要求 不是 “AI 代码必须审查”(代码审查在亚马逊已经存在)。新的要求是 来自初级和中级工程师的 AI 生成代码在投入生产前必须得到高级工程师的批准

这正好针对风险集中的交叉点:

  1. 初级工程师使用 AI 编码工具可以比他们理解下游影响的速度更快地生成语法正确的基础设施更改。
  2. AI 生成的代码能够编译、通过单元测试,并在 diff 中看起来合理。
  3. AI 没有 产生对 十四个下游服务 的理解——如果在高峰流量期间运行特定的数据库迁移,这些服务将会中断。

高级工程师审查 AI 生成的代码 不是 在检查语法错误。他们在检查代码的作者——无论是人还是 AI——是否理解了所修改内容的冲击范围。高级工程师拥有一张系统依赖的心智图,而没有任何编码工具被训练去维护这种图谱。批准关卡 不是 为了补偿糟糕的 AI;它是为了补偿 缺失的上下文——这种上下文需要多年系统运营经验才能积累,任何训练数据都无法替代。

该政策 不会 放慢在熟悉系统上使用 AI 工具的高级工程师的工作速度。它在 速度最危险的地方——缺乏经验的操作者——恰恰增加了摩擦

Source:

这条线

本期刊从多个角度追踪 AI 能力与实际运营之间的交叉点。

  • The Vibe Check 记录了 25 % 的最新 Y Combinator 批次交付的代码库中 95 % 为 AI 生成。
  • The Alibi 记载了亚马逊自家 AI 编码助手误删生产环境的前一次事件。
  • The Performance Review 观察到,用 AI 替代员工的公司也会同时替代那些本来会发现 AI 出错的人。

Treadwell 的政策就是制度化的“发现”机制。

为什么轨迹比快照更重要

AI 编码工具已经进入亚马逊的工作流。事故在六个月内累计。一次足够显眼的事故被媒体报道,促使高级副总裁修改政策。

不是 AI 失灵的故事——AI 生成的代码大多数情况下是可用的。
这是一则关于“多数情况下”在 基础设施层 出错时意味着什么的故事。

每一段软件都位于 功能基础设施 的光谱上:

类别失效影响
功能容错性好——一个坏掉的按钮仅仅是一个坏掉的按钮。
基础设施系统性放大失效——一次部署失败等同于一切都失效。

AI 编码工具 不会 区分这两者;它们会以同等自信生成代码,无论目标是登录页面还是负载均衡器。Treadwell 的政策划定了工具自身无法划定的界限。

回滚并非对 AI 的退缩

它揭示了代码在后果光谱上的分布,并且人类判断往往集中在高后果端 并不是因为人类更擅长写代码,而是因为人类更擅长识别代码错误时会导致的破坏。

  • 六小时宕机 后发现这条线的公司是幸运的。
  • 十三小时宕机(影响面向客户的系统)后才发现的公司则是吃了更大的苦头。
  • 仍未发现这条线的公司仍在积累模式,最终也会被迫采用同样的政策。

从相反方向绘制同一领地

Block 与 Amazon 并不矛盾;它们只是从相反的方向绘制同一片领地。在 Cash App 功能AWS 基础设施部署 之间,存在一条界线:AI 生成的代码在没有人工审查的情况下从安全转向系统性危险。两家公司仅仅是告诉我们它们认为这条线位于何处。

有趣的问题: 这条线对其他所有人来说在哪里?

最初发表于 The Synthesis — 从内部观察智能转型。

0 浏览
Back to Blog

相关文章

阅读更多 »