뉴스 출판사, AI 스크래핑 우려로 Internet Archive 접근 제한
Source: Hacker News
The Guardian와 The New York Times와 같은 매체들은 디지털 아카이브를 AI 크롤러의 잠재적 백도어로 검토하고 있습니다.
웹을 보존하는 사명 아래 인터넷 아카이브는 웹페이지 스냅샷을 수집하는 크롤러를 운영합니다. 이러한 스냅샷 중 다수는 공개 도구인 Wayback Machine을 통해 접근할 수 있습니다. 하지만 AI 봇이 모델 학습을 위해 웹을 수집하면서, 인터넷 아카이브의 자유로운 정보 접근 약속은 일부 뉴스 출판사에게는 디지털 도서관이 잠재적 위험 요소가 되었습니다.
Source:
가디언의 대응
가디언이 누가 자사의 콘텐츠를 추출하려는지 조사했을 때, 접근 로그에서 인터넷 아카이브가 빈번한 크롤러임을 확인했으며, 이는 Robert Hahn(비즈니스 업무 및 라이선싱 책임자)이 LinkedIn에 밝힌 바 있습니다. 출판사는 인터넷 아카이브가 1조 개가 넘는 웹페이지 스냅샷을 보유한 저장소를 통해 AI 기업이 콘텐츠를 스크랩할 가능성을 최소화하기 위해, 게시된 기사에 대한 접근을 제한하기로 결정했습니다.
조치 내용
- 가디언을 인터넷 아카이브 API에서 제외합니다.
- Wayback Machine의 URL 인터페이스에서 기사 페이지를 필터링합니다.
- 지역 홈페이지, 주제 페이지 및 기타 랜딩 페이지는 Wayback Machine에서 계속 허용합니다.
“많은 AI 기업들이 바로 사용할 수 있는 구조화된 콘텐츠 데이터베이스를 찾고 있습니다,”라고 Hahn이 말했습니다. “인터넷 아카이브의 API는 그들의 머신을 연결해 지적 재산을 빨아들이기에 명백한 대상이었을 겁니다.”
(그는 Wayback Machine 자체는 “덜 위험하다”고 덧붙였는데, 이는 데이터가 그렇게 잘 구조화되어 있지 않기 때문입니다.)
가디언은 Wayback Machine을 통해 AI 기업이 자사 웹페이지를 스크랩한 구체적인 사례를 문서화하지 않았습니다. 대신 사전에 대응하고 인터넷 아카이브와 직접 협력해 변경 사항을 구현하고 있습니다. Hahn은 해당 조직이 가디언의 우려에 수용적인 태도를 보였다고 전했습니다.
“[이번 결정]은 우리 콘텐츠에 대한 컴플라이언스와 백도어 위협을 더 많이 고려한 것이었습니다,”라고 Hahn이 설명했습니다.
출판사는 비영리 단체의 사명을 지지한다는 이유로 인터넷 아카이브 크롤러를 전면 차단하지는 않았지만, 이는 일상적인 봇 관리의 일환으로 검토 중인 입장입니다.
*“출판사가 인터넷 아카이브와 같은 도서관을 제한한다면, 대중은 역사 기록에 대한 접근성이 줄어들게 됩니다,”*라고 인터넷 아카이브 설립자 Brewster Kahle이 경고했습니다. 이는 “information disorder”에 맞서는 조직의 작업을 약화시킬 수 있다는 점을 강조했습니다.
파이낸셜 타임스
파이낸셜 타임스는 OpenAI, Anthropic, Perplexity, 그리고 인터넷 아카이브의 봇을 포함해 유료 장벽이 있는 콘텐츠를 스크랩하려는 모든 봇을 차단합니다. Matt Rogerson 글로벌 공공 정책 및 플랫폼 전략 이사에 따르면, FT 기사 대부분이 유료 장벽으로 보호되어 있기 때문에 일반적으로 공개되어야 하는 비유료 FT 기사만이 Wayback Machine에 나타납니다.
“Common Crawl과 Internet Archive는 ‘좋은 사람들’로 널리 인식되고 있으며, OpenAI와 같은 ‘나쁜 사람들’에 의해 사용됩니다,” 라고 Michael Nelson(오래된 도미니언 대학교 컴퓨터 과학자 겸 교수)가 말했습니다. “LLM에 의해 통제되지 않으려는 모든 사람들의 회피 속에서, 나는 좋은 사람들조차도 부수적인 피해가 되고 있다고 생각합니다.”
뉴욕 타임스
뉴욕 타임스는 니만 랩에 대해 인터넷 아카이브의 크롤러를 적극적으로 “하드 블로킹”하고 있다고 확인했습니다. 2025년 말, 타임스는 크롤러 archive.org_bot을 자신의 robots.txt 파일에 추가하여 콘텐츠 접근을 차단했습니다.
“우리는 뉴욕 타임스의 인간 주도 저널리즘 가치를 믿으며, 항상 우리의 IP가 합법적으로 접근되고 사용되기를 원합니다,” 라고 타임스 대변인이 말했습니다. “우리는 Wayback Machine이 타임스 콘텐츠—AI 기업을 포함한—에 대한 무제한 접근을 허가 없이 제공하기 때문에 인터넷 아카이브의 봇을 차단하고 있습니다.”
Reddit의 입장
2023년 8월, Reddit은 인터넷 아카이브를 차단하겠다고 발표했습니다. 인터넷 아카이브의 디지털 라이브러리에는 수많은 보관된 Reddit 포럼, 댓글 섹션, 프로필이 포함되어 있습니다. 이 콘텐츠는 Reddit이 현재 Google에 수천만 달러 규모의 AI 학습 데이터로 라이선스하는 것과 유사합니다.
“[인터넷 아카이브]는 열린 웹에 서비스를 제공하지만, AI 기업들이 플랫폼 정책(우리 정책 포함)을 위반하고 Wayback Machine에서 데이터를 스크래핑하는 사례가 확인되었습니다,” 라고 Reddit 대변인이 The Verge에 말했습니다. “그들이 사이트를 방어하고 플랫폼 정책을 준수할 수 있을 때까지… 우리는 Reddit 데이터를 보호하기 위해 그들의 Reddit 접근을 일부 제한하고 있습니다.”
인터넷 아카이브의 대책
카헬은 인터넷 아카이브가 도서관에 대한 대량 접근을 제한하기 위해 취하고 있는 조치들을 언급했습니다. 지난해 가을에 그는 Mastodon 게시물에서 다음과 같이 적었습니다:
“사용자에게는 제공되지만 대량 다운로드가 허용되지 않는 컬렉션이 많이 있습니다. 우리는 내부 속도 제한 시스템, 필터링 메커니즘, 그리고 네트워크 보안… ”
(원본에서 문장이 잘려 있습니다.)
Summary
뉴스 출판사들은 점점 더 인터넷 아카이브의 Wayback Machine을 AI 학습 데이터의 잠재적인 백도어로 여기고 있습니다. 가디언(The Guardian)과 뉴욕 타임스(The New York Times)와 같이 선택적인 차단이나 제외를 적용하는 경우도 있지만, 레딧(Reddit)과 같이 보다 광범위한 제한을 추진하는 경우도 있습니다. 인터넷 아카이브는 콘텐츠 소유자의 우려가 커지는 상황에서 개방 접근성과 균형을 맞추기 위해 기술적 보호 장치를 모색하고 있습니다.
Internet Archive, AI Crawlers, and News Publishers
인터넷 아카이브의 robots.txt 파일은 현재 주요 AI 기업들의 크롤러를 포함한 특정 크롤러를 차단하고 있지 않습니다. 1월 12일 현재 archive.org 의 파일 내용은 다음과 같습니다:
“Welcome to the Archive! Please crawl our files. We appreciate it if you can crawl responsibly. Stay open!”
이 문구에 대해 문의한 직후, 단순히 “Welcome to the Internet Archive!” 로 변경되었습니다.
LLM 훈련에서 Wayback Machine 사용 증거
-
워싱턴 포스트(2023)의 구글 C4 데이터셋 분석에 따르면, 인터넷 아카이브가 구글 T5 모델과 메타의 Llama 모델을 훈련하는 데 사용된 수백만 웹사이트 중 하나였다고 밝혀졌습니다.
- C4 데이터셋에 포함된 1,500만 개 도메인 중, web.archive.org는 빈도 순위 187위를 차지했습니다.
-
2023년 5월, AI 기업이 서버 과부하를 일으킨 뒤 인터넷 아카이브가 일시적으로 오프라인되었습니다. Wayback Machine 담당자인 Mark Graham은 Nieman Lab에 해당 기업이 “아마존 웹 서비스(AWS) 상의 가상 호스트에서 초당 수만 건의 요청을 보내 비영리 단체의 퍼블릭 도메인 아카이브에서 텍스트 데이터를 추출했다”고 전했습니다. 아카이브는 호스트를 두 차례 차단한 뒤, 사이트를 “존중하는 방식으로” 스크랩해 달라는 공개 요청을 발표했습니다.
“우리는 그들과 연락을 취했습니다. 결국 그들은 우리에게 기부를 해주었습니다,” 라고 그레이엄이 말했습니다. “그들은 사과한다며 그 행위를 중단했습니다.”
“우리 자료를 대량으로 사용하고자 하는 사람들은 천천히 시작해 점차 확대해야 합니다,” 라고 Brewster Kahle이 사건 직후 블로그 글에서 적었습니다. “또한, 대규모 프로젝트를 시작하려면 저희에게 연락해 주세요 … 저희가 도와드리겠습니다.”
출판사의 Robots.txt 정책
가디언이 인터넷 아카이브의 접근을 제한하려는 움직임은 다른 뉴스 출판사들도 유사한 조치를 취하고 있는지 살펴보게 만들었습니다. 웹사이트의 robots.txt 파일은 봇에게 사이트의 어느 부분을 크롤링할 수 있는지 알려주는 “문지기” 역할을 합니다. 법적 구속력은 없지만, 아카이브가 환영받지 못한다는 신호를 보냅니다.
- The New York Times와 The Athletic은 robots.txt 파일에
archive.org_bot을 포함하고 있지만, 현재 다른 아카이브 봇을 차단하고 있지는 않습니다.
방법론
니만 랩은 언론인 Ben Welsh의 1,167개 뉴스 웹사이트 데이터베이스를 시작점으로 사용했습니다. Welsh는 이 매체들의 robots.txt 파일을 정기적으로 스크랩합니다. 12월 말에 우리는 그의 사이트에서 해당 사이트들의 robots.txt 파일에 차단된 모든 봇을 나열한 스프레드시트를 다운로드했습니다.
우리는 AI‑사용자‑에이전트 감시 서비스 Dark Visitors가 인터넷 아카이브와 연관시킨 네 개의 봇을 확인했습니다(아카이브는 이 봇들의 소유권을 확인하지 않았습니다).
이 데이터는 탐색적이며 포괄적이지 않습니다. 전 세계, 산업 전반의 추세를 나타내는 것이 아니라—Welsh 리스트의 76 %가 미국 기반이지만—인터넷 아카이브에 의해 콘텐츠가 크롤링되는 것을 덜 원한다는 출판사를 조명하기 시작합니다.
결과
- 9개 국가에 걸친 241개 뉴스 사이트가 네 개의 인터넷 아카이브 크롤링 봇 중 최소 하나를 명시적으로 차단하고 있습니다.
- 그 중 **87 %**가 USA Today Co.(전 Gannett) 소유이며, 이는 Welsh 원본 출판사 리스트의 **18 %**에 해당합니다.
- 우리 데이터셋에 포함된 모든 Gannett 소유 매체는 동일한 두 봇,
archive.org_bot와ia_archiver-web.archive.org를 차단합니다. 이 봇들은 2025년에 Gannett 출판물의 robots.txt 파일에 추가되었습니다. - 일부 Gannett 사이트는 더 강력한 조치를 취했습니다. Wayback Machine에서 Des Moines Register URL을 검색하면 “Sorry. This URL has been excluded from the Wayback Machine.”라는 메시지가 표시됩니다.
“USA Today Co.는 우리 콘텐츠와 지적 재산을 보호하는 것이 중요하다고 지속적으로 강조해 왔습니다.”라고 회사 대변인이 이메일을 통해 말했습니다. “지난 해 우리는 무단 데이터 수집 및 스크래핑을 억제하기 위한 새로운 프로토콜을 도입했으며, 해당 활동을 우리 라이선스 요구 사항을 안내하는 지정된 페이지로 리디렉션했습니다.”
Gannett는 인터넷 아카이브와의 관계에 대해 추가 논평을 거부했습니다. 2025년 10월 실적 발표 콜에서 CEO Mike Reed는 회사의 반스크래핑 조치에 대해 다음과 같이 언급했습니다:
“9월 한 달만 해도 우리는 로컬 및 USA Today 플랫폼 전반에 걸쳐 7,500만 개의 AI 봇을 차단했으며, 그 대부분은 우리 로컬 콘텐츠를 스크래핑하려는 시도였습니다.”라고 Reed는 말했습니다. “그 중 약 7,000만 개는 OpenAI에서 온 것이었습니다.”
Gannett는 2025년 7월 Perplexity와 콘텐츠 라이선스 계약을 체결했습니다 (보도 자료: ).
주요 결과
-
93 % (226개 사이트) 데이터셋의 퍼블리셔 중 네 개 중 두 개의 Internet Archive 봇을 차단합니다.
-
세 개 뉴스 사이트가 세 개의 Internet Archive 크롤러를 차단합니다:
- Le Huffington Post
- Le Monde (French)
- Le Monde (English) – 모두 Group Le Monde 소유.
-
보다 넓은 차단 행태:
- 241개 사이트 중 최소 하나의 Internet Archive 봇을 차단하는 경우, 240개가 Common Crawl도 차단합니다 – 이는 또 다른 비영리 보존 프로젝트로, 상업용 LLM 개발과 더 밀접하게 연결되어 있습니다 (Wired article).
- 231개 사이트가 OpenAI, Google AI, 그리고 Common Crawl이 운영하는 봇을 차단합니다.
-
우리가 이전에 보도한 바와 같이, Internet Archive는 웹을 보존하는 거대한 과제를 맡고 있으며, 많은 뉴스 조직은 자체 작업을 보관할 자원이 부족합니다.
-
2025년 12월, Poynter는 Internet Archive와 공동 이니셔티브를 발표하여 지역 뉴스룸에게 디지털 보존을 교육한다는 내용을 알렸습니다 (Poynter announcement).
-
이와 같은 아카이빙 프로젝트는 극히 드물으며, 연방 차원의 의무가 없이는 Internet Archive가 미국에서 가장 견고한 아카이빙 노력으로 남아 있습니다.
비주얼 크레딧
Internet Archive 홈페이지 사진 by SDF_QWE – Adobe Stock 라이선스로 사용됨.
Source: “Network and Perplexity Announce Strategic AI Content Licensing Agreement” (link truncated for brevity).
About the Author
Andrew Deck – Nieman Lab에서 AI를 다루는 스태프 라이터.
- Tips about AI usage in your newsroom? Reach out:
- Email: andrewdeck@niemanlab.org
- Bluesky: andrewdeck.bsky.social
- Signal: +1 203‑841‑6241