可观测性的过去、现在和未来

发布: (2026年1月6日 GMT+8 00:34)
9 min read

Source: Hacker News

2026年1月5日

在我的上一篇文章《Round Two》中,我写到了我的职业生涯、对开发工具的热情,以及决定创办一家专注于可观测性的公司。

我还写到了我对当前可观测性的沮丧。为什么工具和工作流如此糟糕?为什么感觉要做很多工作

在今天的文章中,我想通过历史视角来剖析这种沮丧。我将通过一个简单的三部分视角来审视可观测性:它的过去、现在和未来。

我的目标是理解并解释:

  • 可观测性最初出现的原因
  • 可观测性如何演变成今天的混乱局面
  • 为什么即使我们已经取得了所有进展,2026 年仍然如此难以维护可靠的系统

让我们开始吧!

PART 1: OBSERVABILITY’S PAST

要理解可观测性,先回顾一下促成它出现的环境。

在 2010 年代初,软件工程师面临一场危机:随着云计算、容器和微服务的兴起,应用变得日益复杂——复杂到任何个人都难以完全掌握。

与此同时,CI/CD 越来越普及,这意味着变更部署到生产环境的速度加快。结果是:故障和宕机更频繁。

我们的旧可靠性手册突然失效。我们无法预测所有边缘情况,更别说为它们编写测试了。故障模式越来越多地来源于服务之间的复杂交互。进行根因分析时,日志和基础指标已经不够用了。

幸运的是,业界找到了答案。它分为两部分:工具理念

工具:分布式追踪

在 2010 年悄然起步后,分布式追踪在接下来的十年里稳步发展,最终几乎无处不在:

  • 2010 – Google 发布 Dapper,首篇关于分布式追踪的重量级论文。
  • 2012 – Twitter 推出 Zipkin,受 Dapper 启发。
  • 2015 – Honeycomb 成立,成为首批托管追踪平台之一。
  • 2016 – OpenTracing 被 CNCF 采纳。
  • 2016 – Uber 推出 Jaeger,受 Zipkin 启发。
  • 2017 – Datadog 发布 APM,其托管追踪解决方案。
  • 2018 – O’Reilly 出版 Distributed Systems Observability

理念:可观测性

“可观测性”一词最初由 1960 年代的火箭科学家提出,随后在 2010 年代初被 Twitter 的工程团队在软件社区中推广。它迅速发展为完整的产品类别和工程学科:

  • 2013 – Twitter 发布《Observability at Twitter》。
  • 2015 – Charity Majors(Honeycomb 创始人)开始撰写可观测性相关内容,正式化关键概念。
  • 2017 – Peter Bourgon(曾在 SoundCloud 工作并参与 Prometheus)提出“三大支柱”。
  • 2022 – O’Reilly 出版 Observability Engineering

总结,分布式追踪为工程师提供了调试现代云原生应用的方法,而可观测性则为他们在这种新运行环境中思考可靠性提供了框架。

我的观点是,可观测性并非凭空出现。它是对真实工程挑战的回应,并且在大多数情况下能够奏效,所以得以持续发展。

但随后情况恶化了。早期的成功鼓励了工程团队在可观测性工具和流程上过度投入:

  • 更多的仪器化
  • 更多的仪表盘
  • 更多的监控、SLO、错误预算
  • 运行手册、事后分析

到 2020 年代初,可观测性不再是达成目标的手段,而变成了目标本身。

PART 2: OBSERVABILITY’S PRESENT

今天,大多数工程师都会认同:可观测性已成为基本要求。如果你在几乎任何规模上运行生产系统,都需要一种在问题发生时检测、缓解和解决问题的方式。

这正是现代可观测性平台(如 DatadogGrafanaSentry)的作用。

然而,当我思考可观测性的现状时,有一个问题格外突出:在投入了十多年改进工具和流程之后,为什么可观测性仍然糟糕? 我是认真的!

症状

  • 仪器化耗时极长。
  • 仪表盘经常过时。
  • 监控误报。
  • 警报缺乏上下文。
  • 值班成为对工程生产力的永久性税负。
  • 事故解决可能需要数小时,有时甚至数天。

我们拥有比以往更多的遥测数据,但要在生产环境中获得准确的应用心理模型仍是一个重大挑战——这不仅对新毕业生和“随性编码”的年轻人是难题,对有经验的工程师同样如此。

这并非因为缺乏努力。各类公司都非常重视可观测性,投入大量时间和精力来实现和维护可观测性系统:

  • 为 Datadog 花钱。
  • 所有 内容进行仪器化。
  • 采用结构化日志并强制执行标准化的命名/标签约定。
  • 创建 “黄金” 仪表盘。
  • 精心调校监控规则。

按任何合理的定义,这些团队都在做正确的事。

差距

我们在可观测性上投入的努力 并未 与我们在实现其目标方面取得的进展相匹配:更好的检测、更快的根因分析以及更可靠的应用。

为什么? 因为真正的问题不在于数据、工具或流程,而在于我们对已经拥有的数据的理解和推理能力——或者说缺乏这种能力。

可观测性让我们非常擅长产生信号,但在随后要做的事上仅稍有提升:解释这些信号、生成洞察,并将洞察转化为可靠性。

第三部分:可观测性的未来

的确,可观测性并未达到预期。但这并不意味着它没有用或不重要。事实上,我相信可观测性有望成为未来十年最重要的技术类别之一。

(the rest of the future section continues)

End of cleaned markdown segment.

原因

软件再次在变化。

在 2010 年代,可观测性出现,成为应对复杂性的解药。到了 2026 年,软件工程师面临有史以来最大的复杂性危机:AI

AI 正在把编写代码的成本降至零。因此,工程团队正以惊人的速度交付海量功能,代码库也越来越庞大。

与此同时,vibe‑coding 平台让软件开发走向大众。今年将构建和部署的应用数量将超过所有往年之和。

我们正站在一个“无限软件危机”的边缘。

这提出了一个令人不安的问题:我们将如何支持、维护和运营这座日益庞大的软件山?我敢打赌答案是可观测性——只不过不是我们今天所拥有的版本……


View original

Back to Blog

相关文章

阅读更多 »