新闻出版商因 AI 抓取担忧限制对 Internet Archive 的访问
Source: Hacker News
像 The Guardian 和 The New York Times 这样的媒体正在审视数字档案,视其为 AI 爬虫的潜在后门。
作为保存网络的使命的一部分,Internet Archive 运行爬虫来捕获网页快照。这些快照中的许多可以通过其面向公众的工具——Wayback Machine 访问。但随着 AI 机器人在网络上搜集训练数据以供其模型使用,Internet Archive 对自由信息获取的承诺已使其数字图书馆对某些新闻出版商而言成为潜在的风险。
《卫报》的回应
当《卫报》检查谁在尝试提取其内容时,访问日志显示互联网档案馆(Internet Archive)是一个频繁的爬虫,Robert Hahn(业务事务与授权主管)在领英上表示。该出版商决定限制互联网档案馆对已发布文章的访问,以最大程度降低 AI 公司通过该非营利组织拥有的超过一万亿网页快照库抓取其内容的可能性。
已采取的措施
- 将《卫报》排除在互联网档案馆的 API 之外。
- 在 Wayback Machine 的 URL 接口中过滤掉文章页面。
- 继续允许地区主页、专题页面以及其他登录页面在 Wayback Machine 中访问。
“许多 AI 企业正在寻找现成的、结构化的内容数据库,” Hahn 说。“互联网档案馆的 API 本来就是一个显而易见的入口,供它们将自己的机器接入并抽取知识产权(IP)。”
(他补充说,Wayback Machine 本身“风险更小”,因为数据并不像那样结构化。)
《卫报》并未记录具体的 AI 公司通过 Wayback Machine 抓取其网页的实例。相反,它正主动行动,并直接与互联网档案馆合作实施这些更改。Hahn 表示,该组织对《卫报》的关切持开放态度。
“[此决定]更多是出于合规性以及对我们内容的后门威胁,” Hahn 解释道。
该媒体并未对互联网档案馆的爬虫实施全面封锁,因为它支持该非营利组织民主化信息的使命,尽管这一立场仍在其常规机器人管理审查中进行评估。
“如果出版商限制像互联网档案馆这样的图书馆,那么公众将获得更少的历史记录,” 互联网档案馆创始人 Brewster Kahle 说,并警告此类限制可能削弱组织对抗 “信息失序” 的工作。
Source: …
金融时报
金融时报会阻止任何尝试抓取其付费内容的机器人,包括来自 OpenAI、Anthropic、Perplexity 和互联网档案馆的机器人。根据全球公共政策与平台战略总监 Matt Rogerson 的说法,大多数 FT 文章都设有付费墙,因此通常只有未付费的 FT 文章会出现在 Wayback Machine 中,因为这些文章本应公开可用。
“Common Crawl 和 Internet Archive 被广泛认为是‘好人’,而它们被‘坏人’如 OpenAI 使用,” 老 Dominion 大学的计算机科学家兼教授 Michael Nelson 说。“在所有人都不想被大型语言模型控制的情况下,我认为好人是附带的伤害。”
纽约时报
The New York Times confirmed to Nieman Lab that it is actively “hard blocking” the Internet Archive’s crawlers. At the end of 2025, the Times added the crawler archive.org_bot to its robots.txt 文件, disallowing access to its content.
“We believe in the value of The New York Times’s human‑led journalism and always want to ensure that our IP is being accessed and used lawfully,” said a Times spokesperson. “We are blocking the Internet Archive’s bot from accessing the Times because the Wayback Machine provides unfettered access to Times content — including by AI companies — without authorization.”
Reddit的立场
在八月,Reddit宣布将阻止Internet Archive,该数字图书馆包含无数已归档的Reddit论坛、评论区和个人资料。这些内容类似于Reddit目前授权给Google用于数千万美元的AI训练数据。
“[互联网档案馆]为开放网络提供服务,但我们已获悉一些AI公司违反平台政策(包括我们的政策)并从Wayback Machine抓取数据,”一位Reddit发言人对The Verge表示。“在他们能够保护自己的网站并遵守平台政策之前……我们将限制他们对Reddit数据的部分访问,以保护Reddit用户。”
互联网档案馆的对策
Kahle 暗示了互联网档案馆为限制对其馆藏的大规模访问所采取的措施。去年秋天,他在一篇 Mastodon 帖子 中写道:
“有许多收藏对用户开放,但不允许批量下载。我们使用内部限流系统、过滤机制和网络安全……”
(原文在此处被截断。)
摘要
新闻出版商越来越把互联网档案馆的 Wayback Machine 视为 AI 训练数据的潜在后门。虽然有些,如《卫报》和《纽约时报》,正在实施选择性阻止或排除,但其他的,如 Reddit,则正朝着更广泛的限制方向迈进。互联网档案馆方面,则在探索技术防护措施,以在开放访问与内容所有者日益增长的担忧之间取得平衡。
互联网档案馆、AI 爬虫与新闻出版商
互联网档案馆的 robots.txt 文件目前并未禁止任何特定爬虫,包括主要 AI 公司的爬虫。截至 January 12,archive.org 的文件内容为:
“欢迎来到档案馆!请抓取我们的文件。如果您能负责任地抓取,我们将不胜感激。保持开放!”
在我们询问此语言后,它被改为仅仅:“欢迎来到互联网档案馆!”
证据:Wayback Machine 在大语言模型训练中的使用
-
华盛顿邮报(2023)对 Google 的 C4 数据集进行的分析显示,Internet Archive 是用于训练 Google 的 T5 模型和 Meta 的 Llama 系列模型的数百万网站之一。
- 在 C4 数据集的 1500 万个域名中,web.archive.org 的出现频率排名第 187 位。
-
2023 年 5 月,Internet Archive 因一家 AI 公司导致服务器过载而 短暂离线。Wayback Machine 主管 Mark Graham 在接受 Nieman Lab 采访时表示,该公司“从亚马逊云服务的虚拟主机发送了每秒数万次请求,以提取非营利组织公共领域档案中的文本数据”。档案馆在两次阻止这些主机后,公开请求对方“尊重地”爬取其站点。
“我们与他们取得了联系。他们最终向我们捐赠了资金,” Graham 说。“他们最后表示抱歉,并停止了此行为。”
“想要批量使用我们的材料的朋友请慢慢开始,逐步扩大,” Brewster Kahle 在事后不久的博客文章中写道。“如果您要启动大型项目,请先联系我们……我们随时乐意提供帮助。”
出版商的 robots.txt 政策
《卫报》限制互联网档案馆访问的举动促使我们审视其他新闻出版商是否也采取了类似行动。网站的 robots.txt 文件告诉爬虫哪些部分可以抓取,充当“门卫”。虽然没有法律约束力,但它表明档案馆不受欢迎的区域。
- 《纽约时报》 和 The Athletic 在其 robots.txt 文件中包含
archive.org_bot,但目前并未阻止其他档案馆爬虫。
方法论
尼曼实验室使用记者 Ben Welsh 的 1,167 家新闻网站 数据库作为起点。Welsh 定期抓取这些媒体的 robots.txt 文件。去年十二月末,我们从他的网站下载了一份电子表格,列出了这些站点的 robots.txt 中被禁止的所有爬虫。
我们识别出四个爬虫,这些爬虫被 AI 用户代理监控服务 Dark Visitors 关联到互联网档案馆(档案馆未确认这些爬虫的所有权)。
这些数据属于探索性而非全面性。它并不代表全球、行业范围的趋势——Welsh 列表中 76 % 的站点位于美国——但它开始揭示哪些出版商不太愿意让其内容被互联网档案馆抓取。
发现
- 来自 9 个国家 的 241 家新闻站点 明确禁止了至少一个上述四个互联网档案馆爬虫。
- 其中 87 % 的站点归 USA Today Co.(前身为 Gannett)所有,而该公司在 Welsh 原始出版商列表中仅占 18 %。
- 我们数据集中的每一家 Gannett 所拥有的媒体都禁止了同样的两个爬虫:
archive.org_bot和ia_archiver-web.archive.org。这两个爬虫于 2025 被加入 Gannett 出版物的 robots.txt 中。 - 部分 Gannett 站点采取了更强硬的措施。在 Wayback Machine 中搜索 Des Moines Register 的 URL 时,会出现以下信息:“Sorry. This URL has been excluded from the Wayback Machine.”
“USA Today Co. 一直强调保护我们的内容和知识产权的重要性,”公司发言人通过电子邮件表示。“去年,我们推出了新协议,以阻止未经授权的数据收集和抓取,并将此类活动重定向到指定的页面,阐明我们的授权要求。”
Gannett 对其与互联网档案馆的关系拒绝进一步置评。在 2025 年 10 月 的财报电话会议上,CEO Mike Reed 讨论了公司的反抓取措施:
“仅在九月份,我们就在本地平台和 USA Today 平台上拦截了 7500 万个 AI 爬虫,其中绝大多数试图抓取我们的本地内容,”Reed 说。“其中约 7000 万来自 OpenAI。”
Gannett 于 2025 年 7 月与 Perplexity 签署了内容授权协议(新闻稿:)。
关键发现
-
93 %(226 个站点) 的出版商在我们的数据集中阻止了我们识别的 四个 Internet Archive 机器人中的 两个。
-
三个新闻站点 阻止了 三个 Internet Archive 爬虫:
- Le Huffington Post
- Le Monde(法语)
- Le Monde(英语)——全部归 Group Le Monde 所有。
-
更广泛的阻止行为:
- 在 241 个 阻止至少一个 Internet Archive 机器人的站点中,240 也阻止了 Common Crawl ——另一个非营利保存项目,已与 商业 LLM 开发更紧密关联(《Wired》文章)。
- 231 个站点 阻止了由 OpenAI、Google AI 和 Common Crawl 运营的机器人。
Context
- 正如我们之前报道的,Internet Archive 承担了保存网络的艰巨任务,而许多新闻机构缺乏归档自己作品的资源。
- 在 2025年12月,Poynter 宣布与 Internet Archive 合作开展一项联合倡议,旨在培训本地新闻编辑部进行数字保存(Poynter announcement)。
- 像这样的归档项目 寥寥无几;如果没有联邦强制要求,Internet Archive 仍然是 美国最为强大的归档努力。
图片来源
Photo of Internet Archive homepage by SDF_QWE – used under an Adobe Stock license.
Source: “Network and Perplexity Announce Strategic AI Content Licensing Agreement” (link truncated for brevity).
关于作者
Andrew Deck – Nieman Lab 的 AI 版块工作人员撰稿人。
- 关于在新闻编辑部使用 AI 的提示?请联系:
- 电子邮件: andrewdeck@niemanlab.org
- Bluesky: andrewdeck.bsky.social
- Signal: +1 203‑841‑6241