robots.txt 是标志,而不是围栏:AI 仍然读取您网站的 8 条技术向量

发布: (2026年3月23日 GMT+8 15:54)
7 分钟阅读
原文: Dev.to

Source: Dev.to

介绍

您在 robots.txt 中配置了阻止所有已知爬虫的规则:

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: *
Disallow: /

您还启用了 Cloudflare Bot Management,部署了 Akamai,甚至可能还有服务器端付费墙。然而,当您向 ChatGPT 查询您的产品时,它仍然会把您网站作为来源引用。

我从事 GEO(生成式引擎优化) 项目,审计大型语言模型(LLM)对品牌的呈现情况。在成千上万的提示‑响应对中,我们始终发现 10–20 % 的 LLM 回答会引用品牌自己的官方网站——即使所有已知爬虫都已被阻止。

下面是我们记录的 8 个技术向量,并附有学术来源和行业数据。

Source: ACM FAccT 2024 – “A Critical Analysis of Common Crawl”.

1. 历史网络档案(Common Crawl)

  • 规模:9.5 + PB,300 + 十亿文档。
  • 使用情况:在2019–2023年发布的47个大型语言模型中约有2/3使用Common Crawl作为训练数据(GPT‑3、LLaMA、T5、Red Pajama等)。
  • Google的C4数据集:从Common Crawl筛选出的750 GB。

关键点 – 阻止爬虫今天并 不会 追溯性地删除已经捕获的内容。这些快照是永久的、公开的资源。

JavaScript付费墙与Common Crawl

Common Crawl 执行 JavaScript。如果你的付费墙依赖客户端 JS,爬虫仍会捕获完整的 HTML。

document.addEventListener('DOMContentLoaded', () => {
  showPaywall();
});

Alex ReisnerThe Atlantic(2025年11月)记录了此情况:Common Crawl 正在捕获来自 NYT、WSJ、The Economist 和 The Atlantic 本身的完整文章。

2. 机器人身份伪装

一些 AI 机器人在被阻止时会更改其用户代理或 IP。

  • Cloudflare(2024年8月) 报告称 Perplexity 发送了:

    # Declared user-agent
    PerplexityBot/1.0
    
    # What they actually sent
    Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 Chrome/120.0.0.0
  • 它们还会轮换 ASN 以规避基于 IP 的封锁。

  • 规避生态系统包括 FlareSolverr(Selenium + undetected‑chromedriver)、Scrapfly(94–98 % 绕过率)以及住宅代理轮换。

3. 通过内容分发渠道绕过 robots.txt

一旦你的内容离开了自己的域名,robots.txt 就不再适用。

Original domain (robots.txt: Disallow)
  → RSS feed (no robots.txt)
  → Apple News (different domain)
  → Email newsletter (archived on web)
  → Cross‑posted to social (scraped by bots)
  → API aggregators (reformatted downstream)

每个渠道都会在你无法控制的地方生成一份副本。

Internet Archive

  • 10 亿+ 页面,99 + PB 数据。
  • web.archive.org 在 Google 的 C4 数据集中排名第 187。
  • 截至 2026 年 2 月,像 The GuardianNYT 等出版商因 AI 相关担忧开始阻止 Wayback Machine(哈佛的 WARC‑GPT 能直接将 WARC 存档导入 RAG 流水线)。

4. 现代 LLM 的实时抓取

BotGrowth 2024–2025Mechanism
ChatGPT‑User+2,825 %在用户“搜索网页”时抓取
PerplexityBot+157,490 %每次查询时抓取
Meta‑ExternalFetcherNew in 2024Meta AI 功能

These bots claim the fetch is user‑initiated (not autonomous crawling) to argue they are exempt from robots.txt.

  • Cloudflare 报告称 Anthropic 的机器人爬取‑引用比例为 38,000:1 到 70,000:1
  • 来源: Cloudflare Blog 2025; OpenAI Crawlers Overview.

5. 内容农场与改写

人类或 AI 运营的农场在无限制的域名上复制并改写你的文章:

  1. 抓取原始文章。
  2. 改写以规避抄袭检测。
  3. 在没有 robots.txt 限制的域名上发布。
  4. AI 爬虫索引改写后的内容。
  5. 大型语言模型吸收改写后的版本。

Bartz v. Anthropic PBC 案件中,法院裁定使用“盗版站点”内容训练 AI 属于合理使用,为改写内容树立了先例。

6. 忽视 robots.txt 的机器人

  • 12.9 % 的机器人完全忽视 robots.txt(从 3.3 % 上升)。— Paul Calvano,2025年8月
  • 杜克大学(2025):“有几类与 AI 相关的爬虫从不请求 robots.txt。”
  • Kim 与 Bock(ACM IMC 2025):爬取工具在面对更严格的指令时更不可能遵守。

法律视角

Ziff Davis 诉 OpenAI(2025) 案中,法官将 robots.txt 描述为 “更像是一个标志而不是围栏”——它不是《数字千年版权法》(DMCA)下“有效控制访问”的技术措施。

7. 指标概览

指标数值来源
忽略 robots.txt 的机器人12.9 %Paul Calvano, 2025
前 10 K 个站点的 AI 机器人规则仅 14 %Market analysis 2025
有任何 robots.txt 的站点94 %(12.2 M 站点)Global study 2025

8. 缓解策略

  • 防御性措施(例如更严格的机器人管理)可使合规机器人直接爬取量降低 40–60 %,但它们无法影响历史数据、被授权的副本或内容农场的改写。
  • 进攻性方法:控制叙事而不是试图隐藏。

498 Advance 我们构建了:

  • GEOdoctor – 对品牌在大型语言模型中的可见性进行技术审计。
  • S.A.M.(语义对齐机器) – 在自有媒体、UGC 平台(社交 GEO)和权威域之间进行内容对齐。

完整分析及所有学术来源

结论

仅仅使用 robots.txt 和机器人管理工具来阻止所有内容已不再足够。历史档案、实时抓取、内容聚合以及内容农场都会让你的网站内容仍然出现在大型语言模型(LLM)的输出中。最有效的策略是 在所有渠道上管理并统一你的叙事,而不是依赖一个“标志”来阻止机器人。

你是否遇到过这种悖论——即使阻止了一切,内容仍然出现在 LLM 输出中? 欢迎分享你的观察。

0 浏览
Back to Blog

相关文章

阅读更多 »

什么是 RAG?

引言 大多数 AI 模型并不真正“了解”你的数据。它们基于训练时所学的内容生成答案——这意味着它们的答案可能已经过时、不准确……