Alibaba Cloud 和 AWS 托管匿名机器人抓取我们的网站。你的可能是下一个。
Source: Dev.to
观察
我们运营一个独立的观测站,测量机器人和 AI 代理在开放网络上的行为。上周我们捕获到值得撰写的内容。
TLS 指纹详情
一个 TLS 指纹在不同 IP 地址上反复出现:
JA4 hash: t13d311100_e8f1e7e78f70_d41ae481755e
该指纹表明:
- TLS 1.3
- 31 个密码套件
- 11 个扩展
- ALPN 字段为空
真实浏览器总会声明 ALPN(例如 Chrome 和 Firefox 会发送 h2)。在 2026 年出现空 ALPN 表明使用的是 HTTP 库,如 Go 的 net/http 或 Python 的 requests,并带有自定义 TLS——而非浏览器。客户端在冒充浏览器。
User‑Agent 轮换
相同的 JA4 指纹在 13 种不同的浏览器身份之间循环,包括:
- Windows 上的 Chrome 135
- 带 Edge 的 Chrome 135
- macOS 上的 Chrome 134
- Firefox 137
- Safari 18.3 / 18.2
- 带 AdGuard 的 Chrome
- Chrome 131、130、116
- ChromeOS
- …以及其他几种
十三种浏览器,共同的 TLS 握手。真实用户不可能拥有这么多浏览器,也不会共享 TLS 指纹。这指向有意规避:一个静态软件栈在轮换常见的 User‑Agent 列表。
IP 归属
将这些 IP 通过 ARIN 查询得到:
- 47.74.0.0 – 47.87.255.255 – 分配给 Alibaba Cloud LLC (AL‑3)。所有 107 条来自该指纹的连接均来源于该范围内租用的基础设施。
- 另有一次来自 3.91.x.x,属于 Amazon Web Services (us‑east‑1)。
相同的软件出现在两个云提供商上,表明这是一个多云部署,旨在难以被关闭和归属。
在站点上的行为
该机器人的活动符合内容抓取特征:
- 访问了普通访客不会到达的路径。
- 从未请求
robots.txt(107 次连接中 0 次)。 - 在任何 User‑Agent 中都未标识自己为机器人。
- 每次请求都硬编码了指向首页的
Referer头部,无论实际来源如何。 - 跟随了一个格式错误的 URL(未正确解码 URL 转义),这是一种典型的 HTML 解析器在抓取库中的表现,而非浏览器。
证据与验证
所有观察均可独立验证:
- TLS 指纹 – 通过 JA4 规范。
- IP 范围 – 通过 ARIN 记录。
- User‑Agent 轮换 – 在请求日志中捕获。
- Robots.txt 缺失 – 从请求日志可见。
- 多云存在 – 通过 IP 所有权数据确认。
我们提供了加密签名的请求数据观察链。
对站点所有者的影响
- 规模 – 如果一个小观测站在几天内检测到此活动,实际在整个网络上的规模可能更大。
- 归属 – 多云运营者可以使用信用卡租用基础设施,使传统的 IP 信誉和机器人名称过滤失效。
- 防御工具 – 标准分析、CDN 和 WAF 可能会对流量进行速率限制或阻断,但往往无法将其归因到这种匿名、轮换的机器人。
阿里云和 AWS 都在其可接受使用政策中禁止此类活动,但执行似乎不足。
方法论与更多信息
完整的方法论、注册表以及加密签名的证据链可在以下地址获取: