우리는 AI 가시성을 위해 20개 이상의 사이트를 감사했습니다. 가장 흔한 실수는 다음과 같습니다.
Source: Dev.to
우리가 검토한 대부분의 사이트는 기술적인 기반이 탄탄했습니다—우수한 Core Web Vitals, 깔끔한 사이트맵, 잘 구조화된 URL을 가지고 있었고 구글 검색에서도 괜찮은 순위를 차지하고 있었습니다. 하지만 그들의 니치를 ChatGPT, Perplexity, 혹은 Gemini에 물어보면 전혀 검색되지 않았습니다. 이것이 바로 AI 가시성 격차입니다. 20개 이상의 사이트를 감사한 결과, 같은 실수들이 산업, 사이트 규모, 기술 스택을 가리지 않고 반복되는 것을 발견했습니다.
실수 #1: AI 크롤러 차단
지금 robots.txt 파일을 확인하세요:
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: PerplexityBot
Disallow: /
위와 같은 차단 규칙이 하나라도 존재한다면, AI 크롤링을 거부한 것입니다. 많은 감사 대상 사이트에서 이러한 규칙은 보안 플러그인이나 방화벽 규칙에 의해 자동으로 추가되었으며, 아무도 눈치채지 못했습니다.
훈련 크롤러와 검색 크롤러
훈련 크롤러(예: GPTBot, ClaudeBot)는 모델 훈련을 위한 데이터를 수집하고, 검색 크롤러(예: ChatGPT-User, Claude-User)는 실시간으로 콘텐츠를 가져와 사용자 질의에 답변합니다. 훈련은 차단하고 검색 가시성은 유지할 수 있습니다:
# 훈련 차단, 실시간 검색 허용
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-User
Allow: /
실수 #2: 누락되었거나 오래된 스키마 마크업
AI 가시성을 위한 최소 스키마 스택에는 다음이 포함됩니다:
- Organization – 이름, URL, 설명,
sameAs링크 (LinkedIn, Crunchbase, Wikidata) - Article 또는 BlogPosting – 모든 콘텐츠 페이지에 적용
- FAQPage – Q&A 형식의 콘텐츠에 적용
- Product 또는 Service – 상업용 페이지에 적용
- Person + author – 저자 표시가 있는 기사 및 사고 리더십 콘텐츠에 적용
감사한 사이트의 절반은 스키마가 전혀 없었고, 나머지 절반은 2020년식 기본 Organization 마크업만 사용해 sameAs 링크와 상세 설명이 부족했습니다.
최소 Organization 블록(JSON‑LD) 예시:
{
"@context": "https://schema.org",
"@type": "Organization",
"name": "Web Audits",
"url": "https://webaudits.dev",
"description": "Technical SEO and AI visibility audit agency",
"sameAs": [
"https://www.linkedin.com/company/web-audits",
"https://www.crunchbase.com/organization/web-audits",
"https://www.wikidata.org/wiki/Q12345678"
]
}
실수 #3: 약한 엔터티 신호
인간 중심의 카피는 종종 대명사와 일반적인 문구를 과도하게 사용합니다. AI는 스팸처럼 보이지 않으면서도 명확하고 반복적인 엔터티 신호(브랜드명, 카테고리, 구체적인 용어)가 필요합니다.
약함:
“우리 팀은 고객이 목표를 달성하도록 돕는 데 수년간의 경험을 보유하고 있습니다.”
강함:
“Web Audits 팀은 2022년부터 AI 가시성 및 기술 SEO 감사를 수행해 왔으며, 유럽과 미국 전역의 B2B SaaS 기업과 협업하고 있습니다.”
차이점은 키워드 스터핑이 아니라 엔터티 명확성에 있습니다.
실수 #4: 추출할 수 없는 콘텐츠
추출 가능성을 방해하는 패턴
- 명확한 헤딩 (
<h1>,<h2>) 계층 구조가 없음 - 상단에 직접적인 답변이 없는 긴 단락
- 데이터 포인트, 통계, 구체적인 주장 부재
- 중요해 보이지만 실제 정보가 없는 마케팅 카피
해결 방법
“답변‑우선” 형식으로 작성하십시오: 직접적인 답변을 첫 두 문장에 배치하고, 그 뒤에 맥락과 설명을 덧붙이세요. 이를 보다 엄격한 형태의 피처드 스니펫이라고 생각하면 됩니다. 각 섹션은 독립적으로 인용될 수 있을 만큼 자체적으로 완전해야 합니다.
실수 #5: 자체 도메인 외에 존재감이 없음
- 위키피디아 또는 위키데이터 항목(스텁이라도 포함)
- 2~3개의 무역 출판물, 틈새 디렉터리 또는 산업 블로그에 언급
- 다른 콘텐츠 제작자들이 인용한 인용문이나 데이터 포인트
- LinkedIn, GitHub, Crunchbase에 활성 프로필이 있으며 이름이 스키마의
sameAs값과 정확히 일치
이 외부 존재감을 구축하는 데는 시간이 걸리지만 AI 가시성을 위해 필수적입니다.
실수 #6: llms.txt 파일 없음
루트 디렉터리의 /llms.txt에 일반 텍스트 파일을 생성하세요 (용량은 10 KB 이하). 마크다운 스타일 제목과 간결한 요약을 사용하고—마케팅 문구는 배제합니다.
# llms.txt
> Web Audits is a technical SEO and AI visibility audit agency
> based in Europe. We run audits for B2B SaaS companies and
> digital agencies.
핵심 페이지
Not every LLM reads this file yet, but adoption is growing. When a model does read it, it gets a curated map of your most important content instead of guessing.
실수 #7: 일회성 해결 사고방식
월간 검사를 워크플로에 추가하세요:
- ChatGPT, Perplexity, 그리고 Gemini에서 브랜드명과 핵심 주제를 검색하기
yourdomain.com/robots.txt열기 – AI 크롤러가 여전히 허용되는지 확인하기- CMS나 플러그인 업데이트 후 스키마가 그대로 유지되는지 확인하기
- 외부 언급 및 새로운 인용 출처를 분기별로 검토하기
llms.txt가 접근 가능하고 최신 상태인지 보장하기
일상이 되면, 이 검사는 몇 분밖에 걸리지 않습니다.
실수 #8: Google에서 AI 개요 무시하기
Google은 AI 개요를 생성할 때 여전히 페이지 속도와 Core Web Vitals를 고려합니다. 콘텐츠가 강력하더라도 속도가 느린 페이지는 de‑prioritized됩니다. 그렇지 않으면 탄탄한 콘텐츠가 차단되지 않도록 기술적 성능을 좋은 상태로 유지하세요.
Practical Takeaway
위에서 언급한 세 가지 핵심 영역은 webaudits.dev에서 수행하는 표준 AI 가시성 감사에서 우리가 수정하는 대부분을 포괄합니다. 전체 그림은 아니지만, 대부분의 격차가 존재하는 부분입니다.
-
Fix the basics – unblock AI crawlers, add up‑to‑date schema, and ensure extractable content.
기본 사항 수정 – AI 크롤러의 차단을 해제하고, 최신 스키마를 추가하며, 추출 가능한 콘텐츠를 보장합니다. -
Build external signals – get mentions, profiles, and a
llms.txtfile.
외부 신호 구축 – 멘션, 프로필, 그리고llms.txt파일을 확보합니다. -
Maintain – run the monthly checklist to keep visibility steady.
유지 관리 – 가시성을 지속적으로 유지하기 위해 월간 체크리스트를 실행합니다.
먼저 이 단계들을 수행하고, 필요에 따라 범위를 확장하세요.