robots.txt는 표지일 뿐, 울타리가 아니다: AI가 여전히 귀하의 웹사이트를 읽는 8가지 기술적 vectors
I’m happy to translate the article for you, but I need the full text you’d like translated. Could you please paste the content (or the portion you want translated) here? I’ll keep the source line exactly as you provided and translate the rest into Korean while preserving all formatting, markdown, and code blocks.
소개
당신은 robots.txt를 설정하여 모든 알려진 봇을 차단합니다:
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: *
Disallow: /
또한 Cloudflare Bot Management를 활성화하고, Akamai를 설정하며, 경우에 따라 서버‑사이드 유료 장벽까지 구축합니다. 그럼에도 불구하고 ChatGPT에 당신의 제품에 대해 질문하면 여전히 웹사이트를 출처로 인용합니다.
저는 GEO (Generative Engine Optimization) 프로젝트를 진행하며, 대규모 언어 모델(LLM)이 브랜드를 어떻게 표현하는지 감시합니다. 수천 개의 프롬프트‑응답 쌍을 분석한 결과, **10–20 %**의 LLM 답변이 브랜드 자체 웹사이트를 출처로 인용한다는 사실을 일관되게 발견했습니다—모든 알려진 봇이 차단된 경우에도 말이죠.
아래는 우리가 문서화한 8가지 기술적 벡터이며, 학술적 출처와 산업 데이터를 함께 제공합니다.
Source: ACM FAccT 2024 – “A Critical Analysis of Common Crawl”.
1. 역사적 웹 아카이브 (Common Crawl)
- 규모: 9.5 + 페타바이트, 300 + 억 개 문서.
- 사용 현황: 2019–2023 사이에 발표된 47개의 LLM 중 약 2/3이 Common Crawl을 학습 데이터로 사용 (GPT‑3, LLaMA, T5, Red Pajama 등).
- Google의 C4 데이터셋: Common Crawl에서 필터링된 750 GB.
핵심 포인트 – 오늘날 크롤러를 차단한다고 해서 이미 수집된 콘텐츠가 소급해서 삭제되지는 않는다. 해당 스냅샷은 영구적인 공개 자원이다.
JavaScript 페이월 및 Common Crawl
Common Crawl은 JavaScript를 실행하지 않는다. 페이월이 클라이언트‑사이드 JS에 의존하더라도, 크롤러는 전체 HTML을 그대로 수집한다.
document.addEventListener('DOMContentLoaded', () => {
showPaywall();
});
Alex Reisner는 The Atlantic(2025년 11월)에서 이를 문서화했다: Common Crawl이 NYT, WSJ, The Economist, 그리고 The Atlantic 자체의 전체 기사들을 수집하고 있었다.
2. 봇 신원 위장
일부 AI 봇은 차단될 때 사용자‑에이전트나 IP를 변경합니다.
-
Cloudflare (2024년 8월) 은 Perplexity 가 다음과 같이 전송했다고 보고했습니다:
# Declared user-agent PerplexityBot/1.0 # What they actually sent Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 Chrome/120.0.0.0 -
또한 IP 기반 차단을 피하기 위해 ASN을 회전시킵니다.
-
회피 생태계에는 FlareSolverr (Selenium + undetected‑chromedriver), Scrapfly (우회 성공률 94–98 %), 그리고 주거용 프록시 회전이 포함됩니다.
3. Syndication Channels Bypass robots.txt
한 번 콘텐츠가 도메인을 떠나면 robots.txt는 더 이상 적용되지 않습니다.
Original domain (robots.txt: Disallow)
→ RSS feed (no robots.txt)
→ Apple News (different domain)
→ Email newsletter (archived on web)
→ Cross‑posted to social (scraped by bots)
→ API aggregators (reformatted downstream)
각 채널은 여러분의 통제 밖에 복사본을 생성합니다.
Internet Archive
- 10억 + 페이지, 99 + 페타바이트.
web.archive.org는 Google의 C4 데이터셋에서 도메인 #187에 해당합니다.- 2026년 2월 현재, The Guardian과 NYT와 같은 출판사들은 AI 우려 때문에 Wayback Machine 차단을 시작했습니다 (Harvard의 WARC‑GPT는 WARC 아카이브를 직접 RAG 파이프라인에 삽입할 수 있습니다).
4. 현대 LLM에 의한 실시간 페칭
| Bot | Growth 2024–2025 | Mechanism |
|---|---|---|
| ChatGPT‑User | +2,825 % | 사용자가 “웹 검색”을 요청할 때 페칭 |
| PerplexityBot | +157,490 % | 모든 질의에 대해 페칭 |
| Meta‑ExternalFetcher | 2024년 신규 | Meta AI 기능 |
이 봇들은 페칭이 사용자 주도(자동 크롤링이 아님)라고 주장하며 robots.txt에서 면제된다고 주장합니다.
- Cloudflare는 Anthropic의 봇이 38,000:1에서 70,000:1의 크롤‑투‑레퍼 비율을 보인다고 보고했습니다.
- Sources: Cloudflare Blog 2025; OpenAI Crawlers Overview.
5. 콘텐츠 팜 및 재작성
인간 또는 AI‑운영 팜은 제한이 없는 도메인에서 귀하의 기사를 복사하고 재작성합니다:
- 원본 기사를 스크랩합니다.
- 표절 감지를 피하도록 재작성합니다.
robots.txt제한이 없는 도메인에 게시합니다.- AI 크롤러가 재작성된 내용을 색인합니다.
- LLM이 재작성된 버전을 흡수합니다.
In Bartz v. Anthropic PBC, the court ruled that training AI with content from “pirate sites” constituted fair use, setting a precedent for rewritten content.
6. robots.txt를 무시하는 봇
- **12.9 %**의 봇이
robots.txt를 전혀 무시합니다 (3.3 %에서 상승). — Paul Calvano, 2025년 8월 - Duke University (2025): “AI‑관련 크롤러 중 여러 범주는
robots.txt를 전혀 요청하지 않습니다.” - Kim & Bock (ACM IMC 2025): 스크래퍼는 더 제한적인 지시사항을 따를 가능성이 낮습니다.
법적 관점
Ziff Davis v. OpenAI (2025) 사건에서 판사는 robots.txt를 *“펜스라기보다 표지판에 가깝다”*고 설명했으며, 이는 DMCA 하에서 “접근을 효과적으로 제어하는” 기술적 조치가 아닙니다.
7. 메트릭 개요
| 메트릭 | 값 | 출처 |
|---|---|---|
robots.txt를 무시하는 봇 | 12.9 % | Paul Calvano, 2025 |
| AI 봇 규칙이 있는 상위 10K 사이트 | 단 14 % | Market analysis 2025 |
robots.txt가 있는 사이트 | 94 % (12.2 M 사이트) | Global study 2025 |
8. 완화 전략
- 방어적 조치(예: 더 엄격한 봇 관리)는 준수하는 봇에 대해 40–60 % 정도 직접 크롤링을 감소시키지만, 과거 데이터, 재배포된 사본, 혹은 콘텐츠 팜 재작성에는 영향을 미칠 수 없습니다.
- 공격적 접근: 숨기려 하기보다 내러티브를 통제한다.
498 Advance에서 우리는 다음을 구축했습니다:
- GEOdoctor – LLM에서 브랜드 가시성을 기술적으로 감사하는 도구.
- S.A.M. (Semantic Alignment Machine) – 자체 미디어, UGC 플랫폼(소셜 GEO), 그리고 권위 도메인 전반에 걸친 콘텐츠 정렬.
전체 분석 및 모든 학술 자료:
결론
robots.txt와 봇‑관리 도구만으로 모든 것을 차단하는 것으로는 더 이상 충분하지 않습니다. 역사적 아카이브, 실시간 가져오기, 신디케이션, 그리고 콘텐츠 팜은 여러분의 웹사이트 콘텐츠가 여전히 LLM 출력에 나타날 수 있게 합니다. 가장 효과적인 전략은 “봇을 차단하는 표지”에 의존하기보다 모든 채널에 걸쳐 내러티브를 관리하고 일치시키는 것입니다.
모든 것을 차단했음에도 불구하고 여전히 LLM 출력에 나타나는 이 역설을 경험해 보셨나요? 자유롭게 여러분의 관찰을 공유해 주세요.