停止猜测：数据服务的高级监控与故障排除

发布: 5小时前 (2026年4月25日 GMT+8 04:03)

4 分钟阅读

Source: VMware Blog

Overview

如果你曾经在桥接电话中试图找出生产应用程序为何出现延迟，你一定体会过“推卸责任游戏”的沮丧。应用团队指责数据库，DBA 指责存储，基础设施团队则指向网络。在传统的孤岛式环境中，找出根本原因往往需要在时间紧迫的情况下，关联来自三个不同控制台的日志。

有了 VMware Data Services Manager (DSM)，我们正在结束这种猜测。通过提供对数据库内部的深度、细粒度可视性，并将这些数据统一到更广泛的 VMware Cloud Foundation (VCF) 运维层中，我们为实践者提供了从被动抢救转向主动优化的工具。

1. Granular Visibility: Looking Inside the Engine

标准监控往往止步于数据库的“外部”；它只能告诉你 CPU 很高，却不说明原因。DSM 提供的高级故障排查工具让你能够深入引擎内部。

对于 PostgreSQL 工作负载，这意味着原生集成了关键的性能指标：

查询性能跟踪： 在查询导致服务中断之前，识别出“长时间运行”或“占用资源多”的查询。
资源利用率： 超越基础指标，查看内存、磁盘 I/O 和缓冲缓存命中率如何影响具体的数据库实例。
数据库级日志： 直接通过 DSM 界面访问数据库日志，无需 SSH 登录单个虚拟机去查看五分钟前发生了什么。

2. Unified Observability: The VCF Operations Dividend

DSM 作为原生 VCF Advanced Service 的最大优势之一是它并非孤立存在。你的数据库指标会自动在 VCF Operations 中呈现。

对实践者而言，这正是故障排查的终极目标。你可以将数据库延迟的峰值与底层 vSAN 存储的同步事件或同一 ESXi 主机上的噪声邻居关联起来。拥有 单一真相来源，既覆盖数据服务又覆盖其运行的基础设施，你可以在分钟而非小时内实现“Mean Time to Innocence”（或解决时间）。

3. Proactive Health: Setting the Guardrails

监控只是战斗的一半，另一半是行动。DSM 允许你设置复杂的告警和阈值。不必等到 “磁盘已满” 错误导致数据库崩溃，你可以配置 DSM 在数据卷使用率达到 80 % 时发出警报。更好的是，利用 DSM 的自动扩容功能，在无需停机的情况下按需增加存储。

4. The Bottom Line: Data‑Driven Confidence

现代数据管理不应基于“直觉”。通过利用 DSM 9.0.1 中的高级故障排查工具以及 VCF 平台的统一可观测性，你获得了确保关键业务数据库始终保持最佳性能所需的细粒度可视性。

停止猜测。开始优化。

停止猜测：数据服务的高级监控与故障排除

Overview

1. Granular Visibility: Looking Inside the Engine

2. Unified Observability: The VCF Operations Dividend

3. Proactive Health: Setting the Guardrails

4. The Bottom Line: Data‑Driven Confidence

相关文章

准备迎接 Google I/O：直播时间表公布

Agent Platform 中的 Agents CLI：一次 CLI 完成从创建到生产

在 Aurora 上的 ALGORITHM=INSTANT：哪些 ALTER TABLE 操作是真正的零停机时间

你所在组织中最被低估的数据中心是你的笔记本电脑