每个指标都是绿色‑OK，但你的用户无法登录

发布: 2天前 (2026年2月7日 GMT+8 06:18)

4 分钟阅读

原文: Dev.to

Source: Dev.to

为什么绿色仪表盘会骗人

我们常对自己说：如果 CPU 负载低，内存充足，HTTP 返回 200 OK，系统一定在正常工作。

这种假设是错误的。

基础设施指标衡量的是潜在状态，而不是实际状态。它们告诉你系统可能工作，却不告诉你它真的在工作。

这就像因为油箱满了就说你的车完全没问题，而实际上你有两个爆胎且没有方向盘。

基础设施指标是必要的，但它们并不能呈现全局。

将基础设施指标与工作流验证相结合：

每一层捕获的故障模式不同。基础设施指标捕获容量问题。网络检查捕获连通性问题。应用指标捕获崩溃。工作流检查捕获那些“一切看起来都健康”但实际上已中断的细微问题。

你不需要监控每一种可能的用户旅程。先从一条如果出错会导致恐慌的工作流开始——例如注册或 核心价值主张。

然后构建一个基本检查来验证该工作流：

把关注点从“我们的服务器健康吗？”转向“用户能否完成他们来到这里的目的？”

你的基础设施指标会告诉你何时容量不足、何时进程崩溃、何时磁盘已满。

但它们不会告诉你何时认证令牌过期、何时 API 返回被包装在 200 响应中的错误，或何时后台任务停止处理。

如果你想知道系统是否真的可用，就按照用户的使用方式进行测试。尝试做他们在做的事，验证整个流程是否端到端可用。

监控基础设施和监控用户体验是有区别的，这也是我创建 Monitrics 的原因。