互联网正日益变得无法归档
Source: Hacker News
数字档案、AI 爬虫与新闻出版商
媒体如 The Guardian 和 The New York Times 正在审查数字档案,视其为 AI 爬虫的潜在后门。
作为其保存网络使命的一部分,Internet Archive 运行爬虫来捕获网页快照。这些快照中的许多可以通过其面向公众的工具 Wayback Machine 访问。但随着 AI 机器人在网络上搜寻训练数据,Archive 对免费信息访问的承诺使其数字图书馆成为一些新闻出版商的潜在风险。
The Guardian 的回应
- 发现: 访问日志显示 Internet Archive 是 Guardian 内容的频繁爬虫。
- 引用: “很多 AI 企业都在寻找现成的、结构化的内容数据库。Internet Archive 的 API 显然是他们接入并抽取知识产权的显而易见的入口。” – Robert Hahn,业务事务与授权主管(通过他的 LinkedIn 个人资料)。
- 采取的措施:
- API 排除 – Guardian 已从 Internet Archive 的 API 中移除。
- URL 过滤 – 文章页面已从 Wayback Machine 的 URL 界面中过滤。
- 保留非文章页面 – 区域主页、专题页面及其他着陆页仍可访问。
“此决定更多是出于合规性以及对我们内容的后门威胁,” Hahn 补充道。
Guardian 并未完全封锁,因为它仍支持该非营利组织的民主化信息使命,尽管该政策仍在审议中。
金融时报(FT)
- 封锁政策: FT 阻止任何尝试抓取其付费墙内容的机器人,包括来自 OpenAI、Anthropic、Perplexity 以及 Internet Archive 的机器人。
- 结果: 只有未付费墙的 FT 文章会出现在 Wayback Machine 中,因为这些内容本身已经公开。
- 引用: “大多数 FT 文章都在付费墙后,” Matt Rogerson,全球公共政策与平台战略总监(LinkedIn)说。
专家评论
“Common Crawl 和 Internet Archive 通常被视为‘好人’,但却被‘坏人’如 OpenAI 使用。在大家都不想被大语言模型控制的情形下,我认为好人是附带的牺牲品。” – Michael Nelson,老自治领大学计算机科学教授(LinkedIn)。
其他出版商的行动
| 出版商 | 措施 | 理由 |
|---|---|---|
| The New York Times | 对 Internet Archive 的爬虫进行“硬封锁”;在其 robots.txt 中加入 archive.org_bot(截至 2025 年底)。 | 防止 AI 公司不受限制地访问 Times 内容。 |
| 阻止 Internet Archive 访问 Reddit 数据。 | 在 AI 公司违规抓取 Wayback Machine 数据、违反平台政策后,保护用户。 | |
| 其他媒体 | 正在审查机器人管理政策。 | 保护知识产权,限制 AI 训练数据的提取。 |
NYT 发言人:“我们阻止 Internet Archive 的机器人访问 Times,因为 Wayback Machine 为 AI 公司等提供了对 Times 内容的无限制访问——而未获授权。”
Reddit 发言人(被 The Verge 引用):“Internet Archive 为开放网络提供服务,但我们已获悉 AI 公司违反平台政策(包括我们的政策),从 Wayback Machine 抓取数据。除非他们能够为其站点辩护并遵守平台政策……我们将限制其对 Reddit 数据的部分访问,以保护 Reddit 用户。”
互联网档案馆的立场
- 创始人观点: Brewster Kahle 警告说,限制像互联网档案馆这样的图书馆会削减公众获取历史记录的渠道,并可能削弱对抗“信息失序”的努力。
- 技术措施: 在去年秋季的一篇 Mastodon 帖子 中,Kahle 指出,许多收藏 对用户可用,但不支持批量下载。档案馆采用:
- 内部限流系统
- 过滤机制
- 网络安全控制
这些措施旨在在保持开放获取的同时,防止大规模数据被用于 AI 训练的采集。
Summary
- 新闻出版商正日益 限制 Internet Archive 的爬虫,以防止其受版权保护的内容被 AI 公司抓取。
- 《卫报》 和 《纽约时报》 实施了有针对性的封锁,而 《金融时报》 和 Reddit 则采取了更广泛的禁令。
- Internet Archive 承认这些担忧,并正在实施 速率限制和访问控制,但其创始人警告说,过于严格的政策可能会损害公众获取历史网页内容的能力。
Robots.txt 和互联网档案馆
-
互联网档案馆的
robots.txt不 禁止任何特定的爬虫,包括主要 AI 公司的爬虫。 -
截至 1 月 12 日,archive.org 的文件内容为:
Welcome to the Archive! Please crawl our files. We appreciate it if you can crawl responsibly. Stay open!在此语言被查询后不久,它被改为仅显示:
Welcome to the Internet Archive!
Evidence of Wayback Machine Use in LLM Training
- 对 Google 的 C4 数据集的分析(华盛顿邮报,2023)显示,Internet Archive 是用于训练 Google 的 T5 模型和 Meta 的 Llama 模型的数百万网站之一。
- 在 C4 的 1500 万 域名中,web.archive.org 的出现频率排名第 187 位。
AI‑Induced Outage (May 2023)
- 该档案馆在一家 AI 公司导致服务器过载后 离线。
- 根据 Wayback Machine 主管 Mark Graham(Nieman Lab,2023 年秋)的说法,该公司从 AWS 虚拟主机发送 每秒数万次请求,以提取文本数据。
- 档案馆两次封禁这些主机,随后公开请求对方“尊重地”抓取站点。
“我们与他们取得了联系。他们最终给了我们一笔捐款,” Graham 说。“他们最后表示抱歉,并停止了此行为。”
-
Brewster Kahle 在事发后不久的博客文章中写道:
“想要批量使用我们材料的用户应当慢慢开始,并逐步扩大规模。另外,如果您要启动大型项目,请与我们联系……我们随时提供帮助。”
调查出版商的 robots.txt 文件
- 《卫报》限制 Archive 的举动促使我们更广泛地审视 新闻出版商的 robots.txt 文件。
- robots.txt 文件充当 “门卫” 的角色,指明站点哪些部分允许爬虫抓取。虽然没有法律约束力,但它标示了 Archive 不受欢迎的区域。
示例:硬性阻止
- 《纽约时报》 和 The Athletic 在其 robots.txt 文件中包含
archive.org_bot,但它们目前 并未 阻止其他 Archive 爬虫。
数据来源
- Nieman Lab 以记者 Ben Welsh 的 1,167 个新闻网站 数据库为起点。
- Welsh 定期抓取这些媒体的 robots.txt 文件。
- 在十二月下旬,Welsh 网站上的一份电子表格列出了每个站点禁止的所有机器人。
已识别的归档相关机器人
对四个与 Internet Archive 关联的机器人(通过 AI 用户代理监控工具 Dark Visitors)进行了审查。(Archive 未回应确认这些机器人的所有权请求。)
注意: 这些数据属于探索性研究,而非完整统计。它反映了以美国为中心的样本(≈ 76 % 的站点位于美国)。
调查结果
-
241 个新闻网站遍布九个国家,明确禁止至少一个四个 Archive 机器人中的任意一个。
-
87 % 的这些网站归 USA Today Co.(前身为 Gannett)所有。Gannett 网站仅占 Welsh 原始列表的 18 %。
-
每个 Gannett 所拥有的媒体都禁止相同的两个机器人:
archive.org_botia_archiver-web.archive.org
这些条目已于 2025 添加到 Gannett 的 robots.txt 文件中。
-
一些 Gannett 网站采用更严格的措施。例如,在 Wayback Machine 中搜索 Des Moines Register 时返回:
“抱歉。此 URL 已被从 Wayback Machine 中排除。”
Gannett 的公开声明
-
公司发言人在邮件中表示:
“USA Today Co. 一直强调保护我们的内容和知识产权的重要性。去年,我们推出了新协议,以阻止未经授权的数据收集和抓取,并将此类活动重定向到一个说明我们许可要求的指定页面。”
-
Gannett 拒绝就其与 Internet Archive 的关系作进一步评论。
-
在 2025 年 10 月 的财报电话会议上,CEO Mike Reed 讨论了反抓取措施:
“仅在九月份,我们就在本地和 USA Today 平台上拦截了 7500 万个 AI 机器人,其中绝大多数试图抓取我们的本地内容。约有 7000 万来自 OpenAI。”
-
Gannett 于 2025 年 7 月 与 Perplexity 签署了 内容许可协议。
新闻网站对 Internet Archive 机器人阻止情况
“Internet Archive 往往是守规矩的公民。这是意外后果的法则:你出于非常好的目的去做事,却被滥用。” – Robert Hahn
关键发现
- 93 %(226 个站点) 的出版商在我们的数据集中 禁止了我们识别出的四个 Internet Archive 机器人中的两个。
- 三家新闻网站 禁止 三种 Internet Archive 爬虫:Le Huffington Post、Le Monde 和 Le Monde in English(均归 Group Le Monde 所有)。
更广泛的阻止模式
- 在 241 个阻止至少一个 Internet Archive 机器人的站点 中,240 也阻止了 Common Crawl —— 另一个非营利的互联网保存项目,已 与商业 LLM 开发更紧密关联(见 Wired)。
- 231 个站点 阻止了由 OpenAI、Google AI 和 Common Crawl 运营的机器人。
背景
-
正如之前报道的,Internet Archive 承担了保存网络的艰巨任务,而许多新闻机构缺乏自行归档作品的资源。
-
今年十二月,Poynter 宣布与 Internet Archive 联合开展一项计划,为本地新闻机构提供内容保存培训。
-
此类归档计划 寥寥无几;美国没有联邦强制要求保存互联网内容,这使得 Internet Archive 成为美国最为强大的归档努力。
图片来源
- Internet Archive 主页 – 照片作者 SDF_QWE(Adobe Stock)。
- 许可证:Adobe Stock
关于作者
Andrew Deck – Nieman Lab 的 AI 记者。
- 有提示或故事想法? 可通过以下方式联系他:
- 邮箱: andrewdeck@niemanlab.org
- Bluesky: @andrewdeck.bsky.social
- Signal: +1 203‑841‑6241
参考文献
- Gannett & USA TODAY Network – Strategic AI Content Licensing Agreement
- Wired – “The Fight Against AI Comes to a Foundational Data Set”
- Nieman Lab – “The Wayback Machine’s Snapshots of News Homepages Plummet”
(所有链接截至2026年2月均为有效。)