使用全新 MCP 服务器针对 Red Hat Enterprise Linux 的更智能故障排除(现已进入开发者预览)

发布: (2026年1月8日 GMT+8 08:00)
8 min read

Source: Red Hat Blog

(请提供需要翻译的正文内容,我才能为您完成简体中文翻译。)

介绍 Model Context Protocol (MCP) 服务器(适用于 RHEL)

Red Hat Enterprise Linux(RHEL)系统管理员和开发人员长期依赖一套特定工具——结合多年积累的直觉和经验——来诊断问题。随着环境日益复杂,解析日志和排查故障所需的认知负荷不断增加。

有什么新变化?

我们很高兴宣布 Developer Preview ——全新 Model Context Protocol (MCP) server(适用于 RHEL)。

  • 目的: 弥合 RHEL 与大型语言模型(LLMs)之间的鸿沟。
  • 收益: 开启更智能、AI 辅助的故障排查新时代。

敬请关注更多细节,了解 MCP 如何帮助降低管理现代 RHEL 工作负载的心理负担。

Source:

什么是 RHEL 的 MCP 服务器?

MCP(模型上下文协议) 是一种开放标准,允许 AI 模型与外部数据和系统交互。它最初由 Anthropic 发布,并于 2025 年 12 月 捐赠 给 Linux 基金会的 Agentic AI 基金会

RHEL 的全新 MCP 服务器(目前处于 开发者预览 阶段)使用该协议,为 AI 应用提供直接、上下文感知的 RHEL 访问。支持的客户端包括:

之前的 MCP 服务器发布

产品链接典型使用场景
Red Hat Lightspeed如何为 Lightspeed 设置 MCP 服务器AI 辅助开发、代码生成和故障排除
Red Hat Satellite将 AI 应用连接到 Satellite 的 MCP 服务器自动化主机管理、清单查询和策略执行

新的 RHEL 专用 MCP 服务器

RHEL MCP 服务器在上述实现的基础上构建,专为 RHEL 系统的深度故障排查而设计。它支持以下场景:

  • 实时日志分析与根因定位
  • 基于系统状态的自动化修复建议
  • 具备上下文的交互,AI 能直接查询系统配置、软件包版本和服务状态

注意: 该服务器仍处于开发者预览阶段。功能和支持的 AI 客户端可能会在正式发布前发生变化。

启用更智能的故障排除

通过新的 MCP 服务器 将您的 LLM 连接到 RHEL,可解锁强大的只读用例,例如:

智能日志分析

  • 问题: 手动筛选日志数据既繁琐又容易出错。
  • 解决方案: MCP 服务器允许 LLM 读取并分析 RHEL 系统日志,提供基于 AI 的根因分析、异常检测和可操作的洞察。

性能分析

  • MCP 服务器可访问的内容:
    • CPU 数量
    • 负载平均值
    • 内存信息
    • 运行进程的 CPU 与内存使用情况
  • 收益: LLM 能评估当前系统状态,定位性能瓶颈,并提出优化建议。

安全优先预览

  • 只读模式: 此开发者预览仅启用只读的 MCP 功能。
  • 身份验证: 使用标准 SSH 密钥进行安全身份验证。
  • 访问控制:
    • 可配置的允许列表,用于特定日志文件。
    • 可配置的允许列表,用于日志级别访问。
  • 无 Shell 访问: MCP 服务器仅运行预先审查的命令;它 为您的 RHEL 系统提供开放的 Shell。

这些安全措施让您在保持环境安全的同时探索新功能。

Source:

示例用例

在这些示例中,我使用 goose AI 代理与 MCP 服务器配合,来管理名为 rhel10.example.com 的 RHEL 10 系统。Goose 支持多种 LLM 提供商(托管的和本地的);这里我使用的是本地部署的模型。

我已经在 Fedora 工作站上安装了 goose 和 MCP 服务器,并使用 SSH 密钥对 rhel10.example.com 完成了认证。

1. 检查系统健康状态

我先给 LLM 一个提示,请它检查 rhel10.example.com 的健康状态。

Prompt provided to LLM within goose

LLM 调用了多个 MCP‑server 工具来收集系统信息。

MCP server tool calls made by the LLM to collect system information

根据收集到的数据,LLM 返回了系统概览,其中包括下表。

Table summary of the system health returned by the LLM

它还提供了一段简短的摘要,突出显示了关键问题——最显著的是根文件系统几乎已满以及几个服务出现故障。

Summary of the top issues on the system

2. 调查磁盘使用率过高

我询问 LLM 为什么磁盘使用率这么高。

Prompt asking about disk usage

LLM 再次使用 MCP‑server 工具来确定空间被哪些内容占用。

MCP server tool calls that collect disk‑usage information

响应显示:

  • /home/brian/virtual-machines 包含一个 25 GB 的文件。
  • /home/brian/.local 占用了 24 GB 的空间。

LLM response regarding disk usage

3. 排查 httpd.service 故障

接下来,我请 LLM 帮助处理报告为故障的 httpd.service

Prompt asking about the failing httpd.service

LLM 使用 MCP 服务器提供的 Read File 工具。

MCP server Read File tool call made by the LLM

从日志输出中,LLM 识别出导致故障的可能原因。

LLM response regarding the httpd.service failure

它还提供了逐步的操作指引,以纠正该问题。

Step‑by‑step instructions for correcting the issue

结果:
结合 RHEL 的 MCP 服务器和 goose,我能够快速定位并排除系统中的两个主要问题:几乎已满的文件系统以及故障的 httpd 服务。

接下来是什么?

我们目前处于只读分析阶段,但我们的路线图包括扩展到更多用例。要随时了解开发进度,请关注我们的上游 GitHub 仓库

您可以如何贡献

  • 上游贡献 – Fork 仓库,进行更改并提交 pull request。
  • 反馈 – 分享功能改进请求、错误报告或一般意见。
  • 社区联系 – 通过以下方式联系团队:

我们期待您的参与!

准备体验更智能的故障排除吗?

MCP server for RHEL 现已在 Developer Preview 中提供。连接您的 LLM 客户端应用程序,看看上下文感知 AI 如何改变您管理 RHEL 的方式。

开始使用

  1. 阅读官方 Red Hat 文档
  2. 探索上游项目

连接、实验,让 AI 在发现和排除 RHEL 复杂问题时为您提供帮助。

Back to Blog

相关文章

阅读更多 »