인터넷이 점점 보관 불가능해지고 있다
Source: Hacker News
Source: …
디지털 아카이브, AI 크롤러, 그리고 뉴스 출판사
The Guardian와 The New York Times와 같은 매체들은 디지털 아카이브를 AI 크롤러의 잠재적 백도어로 검토하고 있습니다.
웹을 보존하는 사명 하에 인터넷 아카이브는 웹페이지 스냅샷을 캡처하는 크롤러를 운영합니다. 이러한 스냅샷 중 다수는 공개 도구인 Wayback Machine을 통해 접근할 수 있습니다. 하지만 AI 봇이 학습 데이터를 위해 웹을 샅샅이 뒤질 때, 아카이브의 자유로운 정보 접근 약속은 일부 뉴스 출판사에게는 잠재적 위험 요소가 되었습니다.
The Guardian의 대응
- 발견: 접근 로그에서 인터넷 아카이브가 Guardian 콘텐츠를 자주 크롤링하고 있음이 확인되었습니다.
- 인용: “많은 AI 기업들이 즉시 이용 가능한 구조화된 콘텐츠 데이터베이스를 찾고 있습니다. 인터넷 아카이브의 API는 그들의 기계를 연결해 IP를 빨아들이기에 명백한 장소였을 것입니다.” – Robert Hahn, 비즈니스 업무 및 라이선스 담당 책임자 (그의 LinkedIn 프로필을 통해)
- 취한 조치:
- API 제외 – Guardian은 인터넷 아카이브 API에서 제외되었습니다.
- URL 필터링 – 기사 페이지는 Wayback Machine의 URL 인터페이스에서 필터링됩니다.
- 비기사 페이지 유지 – 지역 홈 페이지, 주제 페이지 및 기타 랜딩 페이지는 계속 제공됩니다.
“이 결정은 우리 콘텐츠에 대한 백도어 위협과 규정 준수 문제 때문에 훨씬 더 큰 의미를 가집니다.”라고 Hahn이 덧붙였습니다.
Guardian은 비영리 단체의 정보 민주화 사명을 여전히 지원하기 때문에 완전 차단은 하지 않았으며, 정책은 현재 검토 중입니다.
Financial Times (FT)
- 차단 정책: FT는 유료 장벽이 있는 콘텐츠를 스크랩하려는 모든 봇을 차단합니다. 여기에는 OpenAI, Anthropic, Perplexity, 그리고 인터넷 아카이브의 봇도 포함됩니다.
- 결과: 유료 장벽이 없는 FT 기사만 Wayback Machine에 나타나며, 이는 이미 공개된 내용입니다.
- 인용: “대부분의 FT 기사들은 유료 장벽이 있습니다.”라고 Matt Rogerson, 글로벌 공공 정책 및 플랫폼 전략 이사 (LinkedIn) 가 말했습니다.
전문가 의견
“Common Crawl과 인터넷 아카이브는 ‘좋은 사람들’로 널리 인식되며, OpenAI와 같은 ‘나쁜 사람들’에 의해 사용됩니다. LLM에 의해 통제되지 않으려는 모든 사람들의 입장에서 보면, 좋은 사람들은 부수적인 피해를 입고 있습니다.” – Michael Nelson, 컴퓨터 과학자이자 올드 도미니언 대학교 교수 (LinkedIn)
행동을 취한 다른 출판사
| 출판사 | 조치 | 이유 |
|---|---|---|
| The New York Times | 인터넷 아카이브 크롤러에 대한 “하드 차단”; archive.org_bot을 robots.txt 에 추가 (2025년 말 기준) | AI 기업을 포함한 무제한 AI 접근 차단 |
| 인터넷 아카이브의 Reddit 데이터 접근 차단 | AI 기업이 Wayback Machine 데이터를 플랫폼 정책 위반으로 스크랩한 사례에 대응해 사용자 보호 | |
| 기타 매체 | 봇 관리 정책 지속 검토 | 지적 재산 보호 및 AI 학습 데이터 추출 제한 |
NYT 대변인: “Wayback Machine이 AI 기업을 포함한 모든 이에게 Times 콘텐츠에 대한 무제한 접근을 제공하고 있어, 우리는 인터넷 아카이브 봇을 차단하고 있습니다.”
Reddit 대변인 (The Verge 인용): “인터넷 아카이브는 열린 웹에 서비스를 제공하지만, AI 기업이 플랫폼 정책(우리 정책 포함)을 위반하고 Wayback Machine에서 데이터를 스크랩하는 사례가 보고되었습니다. 그들이 사이트를 방어하고 정책을 준수할 때까지 Reddit 데이터에 대한 접근을 일부 제한하고 있습니다.”
Internet Archive’s Position
- 설립자의 견해: Brewster Kahle는 Internet Archive와 같은 도서관을 제한하면 역사 기록에 대한 대중 접근이 감소하고 “정보 혼란”에 맞서는 노력을 약화시킬 수 있다고 경고했습니다.
- 기술적 조치: 지난 가을에 Kahle는 Mastodon 게시물에서 많은 컬렉션이 사용자에게는 제공되지만 대량 다운로드는 불가능하다고 언급했습니다. Archive는 다음을 사용합니다:
- 내부 속도 제한 시스템
- 필터링 메커니즘
- 네트워크 보안 제어
이러한 단계는 AI 학습을 위한 대규모 데이터 수집을 방지하면서도 개방 접근성을 균형 있게 유지하기 위한 것입니다.
요약
- 뉴스 출판사들은 AI 기업들이 수집하는 것을 방지하기 위해 Internet Archive의 크롤러를 점점 더 제한하고 있습니다.
- Guardian과 NYT는 특정 차단을 시행했으며, FT와 Reddit는 보다 광범위한 금지를 적용했습니다.
- Internet Archive는 이러한 우려를 인정하고 속도 제한 및 접근 제어를 도입하고 있지만, 설립자는 과도한 제한 정책이 대중이 과거 웹 콘텐츠에 접근할 수 있는 능력을 해칠 수 있다고 경고합니다.
Robots.txt와 인터넷 아카이브
-
인터넷 아카이브의
robots.txt는 주요 AI 기업들의 크롤러를 포함한 특정 크롤러를 차단하지 않음. -
1월 12일 현재, archive.org의 파일은 다음과 같이 표시되었습니다:
Welcome to the Archive! Please crawl our files. We appreciate it if you can crawl responsibly. Stay open!이 문구가 조회된 직후, 단순히 다음과 같이 변경되었습니다:
Welcome to the Internet Archive!
LLM 훈련에서 Wayback Machine 사용 증거
- Google의 C4 데이터셋 분석(워싱턴 포스트, 2023)에서는 인터넷 아카이브가 Google의 T5 모델과 Meta의 Llama 모델을 훈련시키는 데 사용된 수백만 개 웹사이트 중 하나였다고 밝혀졌습니다.
- 15 million 도메인 중 web.archive.org는 빈도 순위 187th에 올랐습니다.
AI‑Induced Outage (May 2023)
- The Archive went offline after an AI company generated a server overload.
- According to Wayback Machine director Mark Graham (Nieman Lab, Fall 2023), the company sent tens of thousands of requests per second from AWS virtual hosts to extract text data.
- The Archive blocked the hosts twice, then issued a public request to “respectfully” scrape the site.
“We got in contact with them. They ended up giving us a donation,” Graham said. “They ended up saying that they were sorry and they stopped doing it.”
-
Brewster Kahle wrote in a blog post shortly after the incident:
“Those wanting to use our materials in bulk should start slowly, and ramp up. Also, if you are starting a large project please contact us … we are here to help.”
퍼블리셔 로봇.txt 파일 조사
- 가디언이 아카이브 접근을 제한한 조치가 뉴스 퍼블리셔들의 robots.txt 파일을 더 넓게 살펴보게 했습니다.
- robots.txt 파일은 “문지기” 역할을 하며, 사이트의 어느 부분을 봇이 크롤링할 수 있는지 표시합니다. 법적 구속력은 없지만, 아카이브가 환영받지 못하는 영역을 알리는 신호가 됩니다.
예시: 강제 차단
- The New York Times와 The Athletic은 robots.txt 파일에
archive.org_bot을 포함하고 있지만, 현재 다른 아카이브 봇은 차단하고 있지 않습니다.
데이터 소스
- Nieman Lab은 저널리스트 Ben Welsh의 1,167개 뉴스 웹사이트 데이터베이스를 시작점으로 사용했습니다.
- Welsh는 정기적으로 이 매체들의 robots.txt 파일을 스크랩합니다.
- 12월 말에 Welsh 사이트의 스프레드시트가 각 사이트에서 금지된 모든 봇을 나열했습니다.
식별된 아카이브 관련 봇
인터넷 아카이브와 연관된 네 개의 봇(AI 사용자‑에이전트 감시자 Dark Visitors를 통해)이 조사되었습니다. (아카이브는 이 봇들의 소유권 확인 요청에 응답하지 않았습니다.)
Note: 이 데이터는 탐색적이며 포괄적이지 않습니다. 미국 중심의 샘플을 반영하고 있습니다(≈ 76 %의 사이트가 미국 기반).
Findings
-
241개 뉴스 사이트가 9개 국가에 걸쳐 최소 하나의 아카이브 봇을 명시적으로 차단하고 있습니다.
-
그 중 **87 %**는 USA Today Co.(전 Gannett) 소유이며, Gannett 사이트는 Welsh의 원본 목록 중 **18 %**에 불과합니다.
-
모든 Gannett 소유 매체는 동일한 두 봇을 차단합니다:
archive.org_botia_archiver-web.archive.org
이 항목들은 2025년에 Gannett의 robots.txt 파일에 추가되었습니다.
-
일부 Gannett 사이트는 더 강력한 조치를 취하고 있습니다. 예를 들어, Des Moines Register를 Wayback Machine에서 검색하면 다음과 같은 메시지가 표시됩니다:
“Sorry. This URL has been excluded from the Wayback Machine.”
Gannett’s Public Statements
-
회사 대변인은 이메일을 통해 다음과 같이 말했습니다:
“USA Today Co.는 우리 콘텐츠와 지적 재산을 보호하는 중요성을 지속적으로 강조해 왔습니다. 지난해 우리는 무단 데이터 수집 및 스크래핑을 억제하기 위한 새로운 프로토콜을 도입했으며, 해당 활동을 라이선스 요구 사항을 안내하는 지정 페이지로 리디렉션했습니다.”
-
Gannett는 Internet Archive와의 관계에 대해 추가 논평을 거부했습니다.
-
2025년 10월 실적 발표 콜에서 CEO Mike Reed는 반스크래핑 조치에 대해 다음과 같이 언급했습니다:
“9월 한 달만 해도 우리는 로컬 및 USA Today 플랫폼 전반에 걸쳐 7,500만 개의 AI 봇을 차단했으며, 그 대부분은 우리 로컬 콘텐츠를 스크래핑하려는 시도였습니다. 그 중 약 7,000만 개는 OpenAI에서 온 것이었습니다.”
-
Gannett는 2025년 7월에 Perplexity와 콘텐츠 라이선스 계약을 체결했습니다.
Internet Archive Bot Blocking by News Sites
“The Internet Archive tends to be good citizens. It’s the law of unintended consequences: you do something for really good purposes, and it gets abused.” – Robert Hahn
핵심 발견
- **93 % (226개 사이트)**의 출판사는 우리 데이터셋에서 확인한 네 개의 Internet Archive 봇 중 두 개를 차단합니다.
- 세 개의 뉴스 사이트가 세 개의 Internet Archive 크롤러를 차단합니다: Le Huffington Post, Le Monde, 그리고 Le Monde in English (모두 Group Le Monde 소유).
더 넓은 차단 패턴
- 한 개 이상의 Internet Archive 봇을 차단하는 241개 사이트 중 240개가 Common Crawl도 차단합니다 – 이는 상업용 LLM 개발과 더 밀접하게 연결된 또 다른 비영리 인터넷 보존 프로젝트입니다 (Wired 참고).
- 231개 사이트가 OpenAI, Google AI, 그리고 Common Crawl이 운영하는 봇을 차단합니다.
배경
-
앞서 보도한 바와 같이, Internet Archive는 웹을 보존하는 거대한 작업을 수행하고 있지만 많은 뉴스 조직은 자체 콘텐츠를 아카이브할 자원이 부족합니다.
-
12월에 Poynter는 Internet Archive와 공동 이니셔티브를 발표하여 지역 뉴스 매체가 자신의 콘텐츠를 보존하도록 교육합니다.
-
이러한 아카이빙 이니셔티브는 극히 드물며, 인터넷 콘텐츠 보존을 요구하는 연방 차원의 의무가 없기 때문에 Internet Archive가 미국에서 가장 강력한 아카이빙 노력으로 자리 잡고 있습니다.
사진 출처
- Internet Archive 홈페이지 – 사진 제공: SDF_QWE (Adobe Stock).
- 라이선스: Adobe Stock
저자 소개
Andrew Deck – Nieman Lab에서 AI를 담당하는 스태프 라이터.
- 팁이나 기사 아이디어가 있나요? 다음을 통해 연락하세요:
- 이메일: andrewdeck@niemanlab.org
- Bluesky: @andrewdeck.bsky.social
- Signal: +1 203‑841‑6241
참고 문헌
- Gannett & USA TODAY 네트워크 – 전략적 AI 콘텐츠 라이선스 계약
- Wired – “AI와의 싸움이 기본 데이터 세트에 다가오다”
- Nieman Lab – “Wayback Machine의 뉴스 홈페이지 스냅샷 급락”
(모든 링크는 2026년 2월 현재 활성화되어 있습니다.)