왜 Markdown이 더 나은 AI의 비밀인가
Source: Dev.to
토큰 세금: HTML은 90 % 잡음
대형 언어 모델은 웹 페이지를 읽는 것이 아니라 토큰을 처리합니다. 일반적인 전자상거래 제품 페이지는 150 KB의 HTML에 달할 수 있으며, 이는 대략 40,000 + 토큰에 해당합니다.
같은 페이지를 깔끔하고 의미론적인 Markdown으로 변환하면:
- 크기가 95 % 감소 – 약 40 k 토큰에서 ~2 k 토큰으로 감소합니다.
- 비용 효율성 – 동일한 API 비용으로 약 20배 더 많은 페이지를 처리할 수 있습니다.
- 신호‑대‑잡음 비율 (SNR) – 모델의 어텐션 메커니즘이 적은 신호에 더 많이 작동하도록 만드는
<script>,<style>, 중첩<div>태그를 제거합니다.
| 데이터 형식 | 페이지당 평균 토큰 수 | 예상 비용 (GPT‑4o) | 비용 효율성 |
|---|---|---|---|
| Raw HTML | 45,000 | $0.1125 | 기준선 |
| Clean Markdown | 1,800 | $0.0045 | 96 % 감소 |
참고: 추정치는 2026년 GPT‑4o 가격인 1 M 입력 토큰당 $2.50을 기준으로 합니다. HTML을 Markdown으로 정제하면 동일한 가격에 컨텍스트 창을 약 25배 확대할 수 있습니다.
구조적 편향: LLM은 마크다운을 원어민처럼 사용
LLM은 인터넷을 학습했으며, 이는 GitHub, StackOverflow, 기술 문서와 같이 주로 Markdown으로 작성된 자료를 학습했다는 뜻입니다. Markdown은 HTML이 종종 가리는 의미론적 계층 구조를 제공합니다:
- 헤더 (
#,##) – 아이디어의 부모‑자식 관계를 명시적으로 정의합니다. - 표 (
|) – 중첩 태그의 혼란 없이 “열 기반 추론”(예: 행별 가격 비교)을 가능하게 합니다. - 불릿 포인트 (
-) – 프로세스의 개별 엔터티나 단계를 나타냅니다.
모델이 Markdown 헤더를 보면 이를 컨텍스트 앵커로 인식합니다. 반면 순수 HTML에서는 같은 헤더가 깊은 DOM 트리의 또 다른 노드에 불과합니다.
RAG 정확도: “청킹” 문제
대부분의 RAG 파이프라인은 “단순 청킹”을 사용합니다 – 텍스트를 500자마다 나누는 방식이죠.
- HTML 실패: 태그 중간에서 분할될 수 있어 벡터 데이터베이스의 의미가 파괴됩니다.
- Markdown 해결책: Markdown은 의미론적 청킹을 지원합니다.
#또는##경계에서 데이터를 나누면 벡터 스토어의 각 청크가 일관된 독립 정보 단위가 됩니다.
기술적 통찰: Markdown 기반 RAG 파이프라인에서 “헤더 인식 청킹”은 검색 정확도를 40 %–60 % 향상시키는 것으로 나타났습니다. 이는 임베딩이 무작위 단어 근접성이 아니라 섹션의 맥락적 의도를 포착하기 때문입니다.
앞으로의 길: 데이터가 새로운 코드
우리는 “브라우저”가 AI 에이전트를 위한 OS가 되는 미래로 나아가고 있습니다. 2026년 데이터 추출의 목표는 단순히 “데이터를 갖는 것”이 아니라, 이를 처리할 머신이 사용할 수 있게 만드는 것입니다. 고밀도, 구조화된 Markdown만이 LLM을 더 똑똑하고, 빠르고, 저렴하게 운영할 수 있게 합니다.
우리는 복잡한 웹과 모델이 마땅히 받아야 할 깨끗한 컨텍스트 창 사이의 격차를 메우는 AI‑네이티브 추출의 미래를 구축하고 있습니다.
웹을 개인 데이터베이스로 바꿀 준비가 되셨나요?
커뮤니티에 참여하기
우리는 코드 없이 AI‑네이티브 추출의 미래를 만들고 있습니다.