CloudWatch 调查:您的 AI 驱动的故障排除助手

发布: (2026年1月5日 GMT+8 04:04)
6 min read
原文: Dev.to

Source: Dev.to

记得那些凌晨 3 点的故障吗?当你在仪表盘之间疯狂切换、翻阅日志,却仍在犹豫是否该直接重启所有服务?
我们都曾在非工作时间、周末或深夜排查生产问题——这是一项极度消耗精力的任务。
如果在这个生成式 AI 时代,我们拥有一个 24 × 7 全天候工作的 AI 助手,能够在混乱中为我们指引方向呢?

引入 CloudWatch Investigations,一项由生成式 AI 驱动的功能,正在改变我们在 AWS 环境中处理事故的方式。

工作原理

当出现故障时,您不必在 CloudWatch 指标、日志、部署历史、CloudTrail、X‑Ray 和健康仪表板之间来回切换,CloudWatch Investigations 会为您完成第一轮侦查工作。

它使用 生成式 AI 来扫描系统的遥测数据,并快速呈现:

  • 可疑指标
  • 相关日志
  • 最近的部署或配置更改
  • 可能的根本原因假设(尤其是在涉及多个资源时)

所有这些都以可视化方式展示,让您能够 看到 各项之间的关联,而不是盲目猜测。它就像拥有一位额外的团队成员,24 / 7 盯着您的系统架构。

入门

  1. 打开控制台 – 在 AWS 控制台中转到 CloudWatch → AI Operations(左侧面板)。
  2. 首次设置 – 如果这是您首次配置账户,系统会提示您设置一个 调查组

创建调查组

设置描述
保留天数调查保留的时长。注意:保留期限设置后无法更改。
自定义加密使用客户管理的 KMS 密钥进行加密。确保已为该密钥授予所需权限。
IAM 角色CloudWatch Investigations 会创建一个具有所需 只读 权限的角色。您也可以创建自定义角色。默认会附加:
AIOpsAssistantPolicy
AmazonRDSPerformanceInsightsFullAccess
AIOpsAssistantIncidentReportPolicy

创建组后,您将看到 可选的增强配置 选项。

Enhanced configuration UI

增强集成选项

  • 应用标签 – 包含与您的应用程序相关的标签,以帮助 CloudWatch 缩小调查范围。
  • CloudTrail 访问 – 使服务能够发现相关的变更事件。
  • 可选数据源 – X‑Ray、Application Signals 和 EKS 访问条目。

Source:

演示

示例应用

本演示使用一个简单的 事件预订 应用:

Event‑booking architecture

  • 用户流程 – 用户通过提供详细信息并选择可用时段来预约。
  • 管理员流程 – 管理员批准或拒绝请求。

User booking UI

Admin UI

引入故障

  1. 修改 Lambda 角色 – 从 Lambda 执行角色中移除 KMS 权限。

    Lambda role without KMS

  2. 模拟中断 – 用户在尝试查看时段时开始看到错误,管理员也无法看到任何预约。

    User error screenshot

  3. 初步调查 – 应用的入口点是 CloudFront。检查 CloudFront 时发现 5xx 错误激增。

    CloudFront 5xx errors

(继续使用 CloudWatch Investigations 进行调查——它会自动显示缺失的 KMS 权限,指出受影响的 Lambda,并提供补救步骤建议。)

回顾

  • CloudWatch Investigations 利用生成式 AI 将原始遥测数据转化为可操作的洞察。
  • 它通过自动化首步侦查,降低平均检测时间 (MTTD) 和平均解决时间 (MTTR)。
  • 该功能与现有 AWS 服务(CloudWatch、CloudTrail、X‑Ray 等)集成,并可通过标签和可选数据源进行微调。

下次在凌晨 3 点被拉入事故时试一试——让 AI 完成繁重的工作,你专注于根因修复。

开始调查

  • 在 CloudWatch 指标 5xx 下,您可以启动调查以找出服务返回 5xx 错误的原因。

    cwistart

    视图会自动选择最近的时间戳,但如果需要可以调整开始时间。

    aiopos

  • 调查启动后,需要 10‑15 分钟 完成。您可以观看进度,或利用这段时间与用户/业务沟通或开展其他并行活动。

  • 调查完成后,会清晰显示 出了什么问题以及为何出现 5xx 错误 🥳🥳🥳

    根本原因摘要 中,问题被确定为 IAM 配置问题

    分析 – 该失败模式代表 IAM 配置问题,而非服务降级,证据包括特定的 KMS 权限错误以及 “NEW” 发生模式,表明最近的权限更改影响了 eventap 预发布服务组件。

    aiopsrca‑1

Back to Blog

相关文章

阅读更多 »

RGB LED 支线任务 💡

markdown !Jennifer Davishttps://media2.dev.to/dynamic/image/width=50,height=50,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%...

Mendex:我为何构建

介绍 大家好。今天我想分享一下我是谁、我在构建什么以及为什么。 早期职业生涯与倦怠 我在 17 年前开始我的 developer 生涯……