据称亚马逊自有 AI 工具导致的 13 小时 AWS 中断
Source: Engadget
故障概览
最近一次持续13 小时的亚马逊网络服务(AWS)故障,据《金融时报》报道(link),是由其自有的 AI 工具引发的。知情的四位人士称,事故发生在十二月,当时工程师部署了 Kiro AI 编码工具以进行某些更改。
Kiro AI Tool
- Agentic nature – Kiro 可以代表用户执行自主操作。
- Trigger – 据称该机器人决定“删除并重新创建环境”,这导致了主要影响中国的长时间停机。
- Amazon’s stance – 公司表示,这只是“AI 工具恰好涉及其中的巧合”,并且“同样的问题可能出现在任何开发者工具或手动操作中”。
- 停机被归咎于 用户错误,而非 AI 错误。
- 默认情况下,Kiro “在执行任何操作前请求授权”。
- 相关员工拥有 “比预期更广的权限——这是用户访问控制问题,而非 AI 自主性问题”。
多位亚马逊员工告诉 Financial Times,这是 最近几个月至少第二次 公司的 AI 工具成为服务中断的中心。“这些停机虽小,但完全可以预见,”一位高级 AWS 员工如此表示。
Kiro 于 七月推出(announcement),此后 已推送给员工使用(inside look)。领导层设定了 80 % 的每周使用目标,并密切跟踪采纳率。亚马逊还通过月度订阅费用向外部用户出售该代理工具的使用权。
先前的停机
这些事件紧随十月的一次更严重的事件,该事件中15 小时的 AWS 停机导致 Alexa、Snapchat、Fortnite 和 Venmo 等服务中断,等等(Engadget report)。亚马逊将此次停机归因于其自动化软件中的一个 bug(details)。
亚马逊的回应
我们想要纠正《金融时报》报道中的不准确之处。他们所报告的短暂服务中断是 用户错误——具体而言是访问控制配置错误,而非报道所称的 AI 的结果。
这次中断是去年十二月一次极其有限的事件,仅影响我们 39 个地理区域中的一个区域的单一服务(AWS Cost Explorer)。它 未 影响计算、存储、数据库、AI 技术或我们运行的数百项其他服务。
问题源于角色配置错误——这同样可能在任何开发者工具(无论是否使用 AI)或手动操作中出现。我们没有收到任何客户关于此次中断的询问。
我们已实施多项防护措施以防止此类情况再次发生,包括对生产访问的强制同行评审。虽然访问控制配置错误的事件可能在任何开发者工具中出现,但我们认为从这些经验中学习很重要。《金融时报》声称第二次事件影响了 AWS 的说法完全是错误的。
二十余年来,亚马逊通过我们的错误纠正(COE)流程实现了高水平的运营卓越。我们共同审查事件,以便从任何事件中学习,无论是否影响客户,从而在潜在影响扩大之前解决问题。
更新
February 21 2026, 11:58 AM ET – 本文已更新,加入了亚马逊对《金融时报》报道的完整回应声明。