你的30分钟早晨监测例程?问题不在于数据太多。
Source: Dev.to

为什么你应该在意
如果你每天早上花一大段时间在 AWS 控制台、日志仪表盘和状态页面里点点点,只是为了确认一切是否正常——这篇文章可能对你有帮助。
我曾和一个同样面临此问题的团队合作。结果发现,问题并不是信息过载,而是 要查看的地方太多。
情境
我以外部顾问的身份加入了一个项目。需求很简单:“帮助我们改进监控体系。”
基础设施已经就绪:
- CloudWatch ✓
- 日志 ✓
- 仪表盘 ✓
事故很少——可能每几个月才会出现一次。没有出现故障。
但总有种不对劲的感觉。团队总觉得自己的监控做得不够“好”。
我的发现
通过访谈,出现了几个顾虑:
- 告警阈值可能设得太宽松
- 指标组织不够合理
- 外部 API 监控缺失
- 成本可视化需要改进
这些都很合理。但有一点特别引起了我的注意:
“每天早上,总有人花大约 30 分钟手动检查不同的页面。”
真正的问题
我深入分析了这 30 分钟。
大部分时间并不是在思考,而是在切换页面。
- 打开 AWS 控制台
- 进入仪表盘
- 更改时间范围
- 切换到另一个服务
- 打开外部 API 状态页
- 查看 Cost Explorer
- …
信息其实都在,只是 分散在太多地方。
启示
这不是“监控不足”的问题。
而是“上下文切换过多”的问题。
当前状态(Pull 模式):
你 → 检查 → CloudWatch、日志、外部 API、成本…
目标状态(Push 模式):
自动生成的报告 → 送达 → 你
解决方案是什么?不是减少查看的内容,而是 减少查看的地点。
计划
从 Pull 转向 Push。
不再每天早上去打开仪表盘,而是让报告直接送到你手上。
我之前在另一个项目里用 Jenkins 实现过。定时任务生成晨间摘要并推送到聊天群。设置好后,晨间检查就变成了“阅读已到达的内容”。
下一步
- 清点 — 列出所有被检查的项目及其所在位置
- 优先级 — 只保留关键指标
- 自动化 — 构建 Jenkins 任务生成并推送报告
- 迭代 — 根据实际使用增删功能
从小处着手。不要追求完美。
为什么不直接跳过晨间检查?
好问题。
监控有两个职责:
| 角色 | 功能 | 示例 |
|---|---|---|
| 事件响应 | 知道何时出现故障 | 告警、API 检查 |
| 基线感知 | 知道“正常”是什么样子 | 晨间检查 |
告警会在出现故障时提醒你。但如果你失去了对“正常”状态的感知,就无法判断告警的严重程度。
晨间检查并不是为了捕捉问题,而是为了 保持校准。
让它更容易并不是在偷工减料,而是确保它真的能够持续进行。
小结
这并非灵丹妙药。我甚至不能百分之百确定这是最佳方案。
但逻辑上是合理的:
- 大量监控投入不适合当前阶段
- 对“正常”状态的感知缺失是实际风险
- 因此让这个习惯可持续
实现细节将在后续补充。目前方向已经明确。
我会在我的博客中写下这些工程决策和思考过程: