可观测性的过去、现在和未来

发布: 1个月前 (2026年1月6日 GMT+8 00:34)

9 分钟阅读

原文: Hacker News

Source: Hacker News

2026年1月5日

在我的上一篇文章《Round Two》中，我写到了我的职业生涯、对开发工具的热情，以及决定创办一家专注于可观测性的公司。

我还写到了我对当前可观测性的沮丧。为什么工具和工作流如此糟糕？为什么感觉要做很多工作？

在今天的文章中，我想通过历史视角来剖析这种沮丧。我将通过一个简单的三部分视角来审视可观测性：它的过去、现在和未来。

我的目标是理解并解释：

可观测性最初出现的原因
可观测性如何演变成今天的混乱局面
为什么即使我们已经取得了所有进展，2026 年仍然如此难以维护可靠的系统

让我们开始吧！

PART 1: OBSERVABILITY’S PAST

要理解可观测性，先回顾一下促成它出现的环境。

在 2010 年代初，软件工程师面临一场危机：随着云计算、容器和微服务的兴起，应用变得日益复杂——复杂到任何个人都难以完全掌握。

与此同时，CI/CD 越来越普及，这意味着变更部署到生产环境的速度加快。结果是：故障和宕机更频繁。

我们的旧可靠性手册突然失效。我们无法预测所有边缘情况，更别说为它们编写测试了。故障模式越来越多地来源于服务之间的复杂交互。进行根因分析时，日志和基础指标已经不够用了。

幸运的是，业界找到了答案。它分为两部分：工具和理念。

工具：分布式追踪

在 2010 年悄然起步后，分布式追踪在接下来的十年里稳步发展，最终几乎无处不在：

2010 – Google 发布 Dapper，首篇关于分布式追踪的重量级论文。
2012 – Twitter 推出 Zipkin，受 Dapper 启发。
2015 – Honeycomb 成立，成为首批托管追踪平台之一。
2016 – OpenTracing 被 CNCF 采纳。
2016 – Uber 推出 Jaeger，受 Zipkin 启发。
2017 – Datadog 发布 APM，其托管追踪解决方案。
2018 – O’Reilly 出版 Distributed Systems Observability。

理念：可观测性

“可观测性”一词最初由 1960 年代的火箭科学家提出，随后在 2010 年代初被 Twitter 的工程团队在软件社区中推广。它迅速发展为完整的产品类别和工程学科：

2013 – Twitter 发布《Observability at Twitter》。
2015 – Charity Majors（Honeycomb 创始人）开始撰写可观测性相关内容，正式化关键概念。
2017 – Peter Bourgon（曾在 SoundCloud 工作并参与 Prometheus）提出“三大支柱”。
2022 – O’Reilly 出版 Observability Engineering。

总结，分布式追踪为工程师提供了调试现代云原生应用的方法，而可观测性则为他们在这种新运行环境中思考可靠性提供了框架。

我的观点是，可观测性并非凭空出现。它是对真实工程挑战的回应，并且在大多数情况下能够奏效，所以得以持续发展。

但随后情况恶化了。早期的成功鼓励了工程团队在可观测性工具和流程上过度投入：

更多的仪器化
更多的仪表盘
更多的监控、SLO、错误预算
运行手册、事后分析

到 2020 年代初，可观测性不再是达成目标的手段，而变成了目标本身。

PART 2: OBSERVABILITY’S PRESENT

今天，大多数工程师都会认同：可观测性已成为基本要求。如果你在几乎任何规模上运行生产系统，都需要一种在问题发生时检测、缓解和解决问题的方式。

这正是现代可观测性平台（如 Datadog、Grafana 和 Sentry）的作用。

然而，当我思考可观测性的现状时，有一个问题格外突出：在投入了十多年改进工具和流程之后，为什么可观测性仍然糟糕？ 我是认真的！

症状

仪器化耗时极长。
仪表盘经常过时。
监控误报。
警报缺乏上下文。
值班成为对工程生产力的永久性税负。
事故解决可能需要数小时，有时甚至数天。

我们拥有比以往更多的遥测数据，但要在生产环境中获得准确的应用心理模型仍是一个重大挑战——这不仅对新毕业生和“随性编码”的年轻人是难题，对有经验的工程师同样如此。

这并非因为缺乏努力。各类公司都非常重视可观测性，投入大量时间和精力来实现和维护可观测性系统：

为 Datadog 花钱。
对所有内容进行仪器化。
采用结构化日志并强制执行标准化的命名/标签约定。
创建 “黄金” 仪表盘。
精心调校监控规则。

按任何合理的定义，这些团队都在做正确的事。

差距

我们在可观测性上投入的努力并未与我们在实现其目标方面取得的进展相匹配：更好的检测、更快的根因分析以及更可靠的应用。

为什么？ 因为真正的问题不在于数据、工具或流程，而在于我们对已经拥有的数据的理解和推理能力——或者说缺乏这种能力。

可观测性让我们非常擅长产生信号，但在随后要做的事上仅稍有提升：解释这些信号、生成洞察，并将洞察转化为可靠性。

第三部分：可观测性的未来

的确，可观测性并未达到预期。但这并不意味着它没有用或不重要。事实上，我相信可观测性有望成为未来十年最重要的技术类别之一。

… (the rest of the future section continues)

End of cleaned markdown segment.

原因

软件再次在变化。

在 2010 年代，可观测性出现，成为应对复杂性的解药。到了 2026 年，软件工程师面临有史以来最大的复杂性危机：AI。

AI 正在把编写代码的成本降至零。因此，工程团队正以惊人的速度交付海量功能，代码库也越来越庞大。

与此同时，vibe‑coding 平台让软件开发走向大众。今年将构建和部署的应用数量将超过所有往年之和。

我们正站在一个“无限软件危机”的边缘。

这提出了一个令人不安的问题：我们将如何支持、维护和运营这座日益庞大的软件山？我敢打赌答案是可观测性——只不过不是我们今天所拥有的版本……

View original

可观测性的过去、现在和未来

PART 1: OBSERVABILITY’S PAST

工具：分布式追踪

理念：可观测性

PART 2: OBSERVABILITY’S PRESENT

症状

差距

第三部分：可观测性的未来

原因

相关文章

奇怪.website

全球首个全固态电池已准备好为量产车辆供电

迁移细胞与微嵌合体新科学

Google让我心碎