Alibaba Cloud 和 AWS 托管匿名机器人抓取我们的网站。你的可能是下一个。

发布: (2026年4月25日 GMT+8 09:52)
4 分钟阅读
原文: Dev.to

Source: Dev.to

观察

我们运营一个独立的观测站,测量机器人和 AI 代理在开放网络上的行为。上周我们捕获到值得撰写的内容。

TLS 指纹详情

一个 TLS 指纹在不同 IP 地址上反复出现:

JA4 hash: t13d311100_e8f1e7e78f70_d41ae481755e

该指纹表明:

  • TLS 1.3
  • 31 个密码套件
  • 11 个扩展
  • ALPN 字段为空

真实浏览器总会声明 ALPN(例如 Chrome 和 Firefox 会发送 h2)。在 2026 年出现空 ALPN 表明使用的是 HTTP 库,如 Go 的 net/http 或 Python 的 requests,并带有自定义 TLS——而非浏览器。客户端在冒充浏览器。

User‑Agent 轮换

相同的 JA4 指纹在 13 种不同的浏览器身份之间循环,包括:

  • Windows 上的 Chrome 135
  • 带 Edge 的 Chrome 135
  • macOS 上的 Chrome 134
  • Firefox 137
  • Safari 18.3 / 18.2
  • 带 AdGuard 的 Chrome
  • Chrome 131、130、116
  • ChromeOS
  • …以及其他几种

十三种浏览器,共同的 TLS 握手。真实用户不可能拥有这么多浏览器,也不会共享 TLS 指纹。这指向有意规避:一个静态软件栈在轮换常见的 User‑Agent 列表。

IP 归属

将这些 IP 通过 ARIN 查询得到:

  • 47.74.0.0 – 47.87.255.255 – 分配给 Alibaba Cloud LLC (AL‑3)。所有 107 条来自该指纹的连接均来源于该范围内租用的基础设施。
  • 另有一次来自 3.91.x.x,属于 Amazon Web Services (us‑east‑1)

相同的软件出现在两个云提供商上,表明这是一个多云部署,旨在难以被关闭和归属。

在站点上的行为

该机器人的活动符合内容抓取特征:

  • 访问了普通访客不会到达的路径。
  • 从未请求 robots.txt(107 次连接中 0 次)。
  • 在任何 User‑Agent 中都未标识自己为机器人。
  • 每次请求都硬编码了指向首页的 Referer 头部,无论实际来源如何。
  • 跟随了一个格式错误的 URL(未正确解码 URL 转义),这是一种典型的 HTML 解析器在抓取库中的表现,而非浏览器。

证据与验证

所有观察均可独立验证:

  • TLS 指纹 – 通过 JA4 规范。
  • IP 范围 – 通过 ARIN 记录。
  • User‑Agent 轮换 – 在请求日志中捕获。
  • Robots.txt 缺失 – 从请求日志可见。
  • 多云存在 – 通过 IP 所有权数据确认。

我们提供了加密签名的请求数据观察链。

对站点所有者的影响

  • 规模 – 如果一个小观测站在几天内检测到此活动,实际在整个网络上的规模可能更大。
  • 归属 – 多云运营者可以使用信用卡租用基础设施,使传统的 IP 信誉和机器人名称过滤失效。
  • 防御工具 – 标准分析、CDN 和 WAF 可能会对流量进行速率限制或阻断,但往往无法将其归因到这种匿名、轮换的机器人。

阿里云和 AWS 都在其可接受使用政策中禁止此类活动,但执行似乎不足。

方法论与更多信息

完整的方法论、注册表以及加密签名的证据链可在以下地址获取:

botconduct.org

0 浏览
Back to Blog

相关文章

阅读更多 »