已解决:Cloudflare 再次宕机

发布: (2026年1月15日 GMT+8 20:00)
12 min read
原文: Dev.to

Source: Dev.to

TL;DR: 当 Cloudflare 看似宕机时,首先通过官方状态页面和本地诊断确认故障来源,再不要惊慌。解决方案从通过修改 hosts 文件进行临时绕行,到采用多 CDN 实施、DNS 级别故障转移以及分布式源站基础设施等稳健的长期策略,以确保业务连续性。

🎯 关键要点

  • 始终通过 Cloudflare 官方状态页面、第三方监控以及本地网络诊断(ping、traceroute、cURL)来验证 Cloudflare 是否宕机,以区分全局性问题和本地化问题。
  • 在紧急访问时,可通过修改本地 hosts 文件将域名直接指向源站服务器的 IP,或配置本地 DNS 解析器如 dnsmasq,暂时绕过 Cloudflare。
  • 实施稳健的弹性策略,例如使用其他提供商的 DNS 级别故障转移、多 CDN 方案、跨多个地区的分布式源站基础设施,或将关键应用的静态站点生成后托管在对象存储上。

Cloudflare 再次宕机?了解常见症状以及可操作的策略,帮助您排查、绕过并降低 Cloudflare 中断对基础设施的影响。

Source:

症状:Cloudflare 真的是宕机了,还是你的问题?

在任何故障情景的第一步都是确认来源。 “Cloudflare 宕机了” 的恐慌往往源于本地问题或配置错误,而非全局性宕机。以下是诊断方法:

1. 检查 Cloudflare 官方状态页面

始终先查询权威来源。Cloudflare 维护一个公开的状态页面,提供其服务的实时更新。

  • 如果状态页面显示有问题,你很可能正遭遇真实的 Cloudflare 故障。
  • 如果所有系统均显示正常,则问题可能出在本地。

2. 咨询第三方监控服务

独立的监控服务可以提供更广阔的视角,确认问题是普遍存在还是局部的。

3. 执行本地网络诊断

即使 Cloudflare 状态为绿色,你到其边缘节点的网络路径仍可能出现问题。使用常见的网络工具:

Ping – 检查对你的域名的基本连通性

ping yourdomain.com

Traceroute / MTR – 绘制网络路径,帮助定位延迟或丢包发生的位置

# macOS / Linux
traceroute yourdomain.com

# Windows
tracert yourdomain.com

cURL – 测试 HTTP 连通性并查看响应头

curl -v yourdomain.com

留意 HTTP 5xx 错误、超时或意外的重定向,这些可能指向 Cloudflare 边缘节点的问题,或如果流量已越过 Cloudflare,则指向你的源站服务器。

方案 1:绕过 Cloudflare 进行紧急访问

在 Cloudflare 故障期间,关键系统或服务可能无法访问。直接绕过 Cloudflare 访问源服务器,通常是内部团队或紧急访问的临时解决方案。

1. 通过 Hosts 文件直接访问 IP

最简单的方法是修改本地 hosts 文件,将域名解析为源服务器的 IP 地址,从而绕过 Cloudflare 的 DNS 解析。

查找你的源 IP – 即你的 Web 服务器或负载均衡器的公网 IP,Cloudflare 通常会将流量代理到该 IP。如果不知道,可查看 Cloudflare 的 DNS 记录(指向服务器的 “A” 记录)或托管服务商的控制面板。

编辑 hosts 文件

  • Linux/macOS: /etc/hosts
  • Windows: C:\Windows\System32\drivers\etc\hosts

添加如下条目:

YOUR_ORIGIN_IP  yourdomain.com  www.yourdomain.com

YOUR_ORIGIN_IP 替换为服务器的公网 IP,将 yourdomain.com 替换为你的实际域名。保存后,清除本地 DNS 缓存:

  • macOS: sudo dscacheutil -flushcache; sudo killall -HUP mDNSResponder
  • Windows: ipconfig /flushdns

此后,你机器对 yourdomain.com 的请求将直接到达源服务器。

2. 在解析器层面进行 DNS 覆盖(高级)

对于团队或特定环境,你可以临时在本地 DNS 解析器(如 dnsmasqUnbound)中覆盖域名的 DNS 记录。

使用 dnsmasq(Linux)的示例

编辑 /etc/dnsmasq.conf(或 /etc/dnsmasq.d/ 中的文件):

address=/yourdomain.com/YOUR_ORIGIN_IP
address=/www.yourdomain.com/YOUR_ORIGIN_IP

重启 dnsmasq:

sudo systemctl restart dnsmasq

确保客户端已配置为使用该 dnsmasq 实例作为其主 DNS 服务器。这样即可为多个用户提供更受控的临时绕过。

Source:

方案 2:实现多 CDN 或故障转移策略

对于关键应用,仅依赖单一 CDN 提供商会形成单点故障。一个稳健的方案是多元化内容分发策略。

1. DNS 级别的故障转移(使用其他提供商)

使用支持健康检查和自动故障转移的 DNS 服务商(例如 AWS Route 53、NS1、Azure DNS)。当主 CDN(Cloudflare)不可达时,DNS 记录会自动切换到次级 CDN 或直接指向源站。

前置条件

  • 已配置好并存有内容的次级 CDN(如 Akamai、Fastly、CloudFront,或简单的 Nginx 代理)。
  • 源站服务器能够直接提供流量,或通过次级 CDN 提供服务。

配置健康检查、加权路由和故障转移策略的详细步骤超出本摘要范围,核心思路是确保 DNS 在 Cloudflare 故障时能够自动重新路由流量。

2. 主 CDN 故障转移

基于 DNS 的故障转移(例如 AWS Route 53)

步骤操作
创建健康检查为 Cloudflare 代理的端点(或你知道会经过 Cloudflare 的特定路径)设置 Route 53 健康检查。
配置主记录集创建 加权基于延迟 的 DNS 记录,指向你的 Cloudflare CNAME 或 IP,并关联上述健康检查。
配置次记录集再创建一个加权或 故障转移 记录,权重更低(或选择 “Secondary” 故障转移类型),指向次级 CDN 的 CNAME 或直接指向源站 IP。不要将此记录关联到主健康检查。

当主(Cloudflare)的健康检查失败时,Route 53 会自动开始返回次记录集,将流量从出现问题的 Cloudflare 边缘节点转移出去。

多 CDN 方法

多 CDN 策略同时使用两个或更多 CDN 提供商,通常通过 CDN 编排器或 DNS 级别的流量分配实现。这提供最高的弹性,但也会增加复杂度。

特性单一 CDN多 CDN
弹性单点故障高——风险分散在多个提供商之间
成本较低(单一供应商定价)较高(多份合同,可能还有编排器费用)
性能针对单一网络优化可能更好——可动态路由到表现最佳的 CDN
复杂度低——单一配置高——需管理多个配置、DNS 路由或编排器
管理更简易的运维更复杂——需要专用工具或专业知识
适用场景中小型站点、非关键应用大型企业、需要 24/7 高可用性的关键应用

实现建议: 在 DNS 层部署 全局负载均衡(例如 Akamai Edge DNS、NS1、UltraDNS),通过实时健康检查和性能指标智能地将用户请求路由到表现最佳或可用的 CDN。

方案 3:利用源冗余和静态站点生成

1. 分布式源基础设施

如果您的源服务器仅位于单个地区,它们就会成为单点故障。将源分布在多个地理区域,以提升弹性。

示例:AWS 多区域设置

  1. 多个区域 – 在至少两个不同的 AWS 区域(例如 us-east-1eu-west-1)部署您的应用栈(EC2、ECS、EKS 以及 ALB/NLB)。
  2. 全局负载均衡(Route 53) – 使用 Route 53 健康检查,结合基于延迟或故障转移的路由策略。
# Primary region record (weighted or latency‑based)
resource "aws_route53_record" "primary_domain" {
  zone_id = aws_route53_zone.main.zone_id
  name    = "yourdomain.com"
  type    = "A"

  alias {
    name                   = aws_elb_target_group_attachment.primary_region_alb.dns_name
    zone_id                = aws_elb_target_group_attachment.primary_region_alb.zone_id
    evaluate_target_health = true
  }

  set_identifier   = "primary-region-alb"
  health_check_id  = aws_route53_health_check.primary_alb.id
  weight            = 100   # Adjust for weighted routing; omit for latency‑based
}

# Secondary region record (lower weight or failover)
resource "aws_route53_record" "secondary_domain" {
  zone_id = aws_route53_zone.main.zone_id
  name    = "yourdomain.com"
  type    = "A"

  alias {
    name                   = aws_elb_target_group_attachment.secondary_region_alb.dns_name
    zone_id                = aws_elb_target_group_attachment.secondary_region_alb.zone_id
    evaluate_target_health = true
  }

  set_identifier   = "secondary-region-alb"
  health_check_id  = aws_route53_health_check.secondary_alb.id
  weight            = 50    # Lower weight, or change type to "failover"
}

有了此配置,即使 Cloudflare 故障并被绕过,源仍然可以在多个接入点保持高度可用。

2. 静态站点生成与对象存储托管

对于大多数内容为静态或可预渲染的站点,直接在对象存储(如 AWS S3、Google Cloud Storage、Azure Blob Storage)上托管,并在其前置 CDN,可实现极佳的弹性。如果 CDN 失效,仍可将用户直接路由到存储端点。

步骤

  1. 生成静态站点 – 使用 Hugo、Jekyll、Next.js 或 Gatsby 等静态站点生成器。
  2. 在对象存储上托管 – 将生成的文件上传到 S3 桶(或等价服务),并配置为静态网站托管。
# 1️⃣ 创建一个与域名完全相同的桶
aws s3api create-bucket --bucket yourdomain.com --region us-east-1

# 2️⃣ 启用静态网站托管
aws s3 website s3://yourdomain.com/ --index-document index.html --error-document error.html

桶策略(公共读取):

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Sid": "PublicReadGetObject",
      "Effect": "Allow",
      "Principal": "*",
      "Action": ["s3:GetObject"],
      "Resource": ["arn:aws:s3:::yourdomain.com/*"]
    }
  ]
}
  1. 将 DNS 指向该桶 – 在 Route 53(或其他 DNS 提供商)中创建别名记录,使 yourdomain.com 指向 S3 网站端点。

通常您会在 S3 前面放置 Cloudflare(或其他 CDN)以提升性能和安全性,但“对象存储上的静态站点”模式确保即使 CDN 不可用,站点仍可直接从存储服务访问。

通过了解 Cloudflare 的角色、为潜在中断做好准备,并实施冗余系统,DevOps 团队能够显著降低外部服务中断的影响,确保业务连续性并维护用户信任。

Darian Vance

height=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fnwjgilechjb8hqoqlrg1.png)

👉 阅读 TechResolve.blog 上的原文

Back to Blog

相关文章

阅读更多 »

Rapg:基于 TUI 的密钥管理器

我们都有这种经历。你加入一个新项目,首先听到的就是:“在 Slack 的置顶消息里查找 .env 文件”。或者你有多个 .env …

技术是赋能者,而非救世主

为什么思考的清晰度比你使用的工具更重要。Technology 常被视为一种魔法开关——只要打开,它就能让一切改善。新的 software,...

踏入 agentic coding

使用 Copilot Agent 的经验 我主要使用 GitHub Copilot 进行 inline edits 和 PR reviews,让我的大脑完成大部分思考。最近我决定 t...