왜 Markdown이 더 나은 AI의 비밀인가

발행: (2026년 1월 9일 오전 12:28 GMT+9)
5 min read
원문: Dev.to

Source: Dev.to

토큰 세금: HTML은 90 % 잡음

대형 언어 모델은 웹 페이지를 읽는 것이 아니라 토큰을 처리합니다. 일반적인 전자상거래 제품 페이지는 150 KB의 HTML에 달할 수 있으며, 이는 대략 40,000 + 토큰에 해당합니다.

같은 페이지를 깔끔하고 의미론적인 Markdown으로 변환하면:

  • 크기가 95 % 감소 – 약 40 k 토큰에서 ~2 k 토큰으로 감소합니다.
  • 비용 효율성 – 동일한 API 비용으로 약 20배 더 많은 페이지를 처리할 수 있습니다.
  • 신호‑대‑잡음 비율 (SNR) – 모델의 어텐션 메커니즘이 적은 신호에 더 많이 작동하도록 만드는 <script>, <style>, 중첩 <div> 태그를 제거합니다.
데이터 형식페이지당 평균 토큰 수예상 비용 (GPT‑4o)비용 효율성
Raw HTML45,000$0.1125기준선
Clean Markdown1,800$0.004596 % 감소

참고: 추정치는 2026년 GPT‑4o 가격인 1 M 입력 토큰당 $2.50을 기준으로 합니다. HTML을 Markdown으로 정제하면 동일한 가격에 컨텍스트 창을 약 25배 확대할 수 있습니다.

구조적 편향: LLM은 마크다운을 원어민처럼 사용

LLM은 인터넷을 학습했으며, 이는 GitHub, StackOverflow, 기술 문서와 같이 주로 Markdown으로 작성된 자료를 학습했다는 뜻입니다. Markdown은 HTML이 종종 가리는 의미론적 계층 구조를 제공합니다:

  • 헤더 (#, ##) – 아이디어의 부모‑자식 관계를 명시적으로 정의합니다.
  • 표 (|) – 중첩 태그의 혼란 없이 “열 기반 추론”(예: 행별 가격 비교)을 가능하게 합니다.
  • 불릿 포인트 (-) – 프로세스의 개별 엔터티나 단계를 나타냅니다.

모델이 Markdown 헤더를 보면 이를 컨텍스트 앵커로 인식합니다. 반면 순수 HTML에서는 같은 헤더가 깊은 DOM 트리의 또 다른 노드에 불과합니다.

RAG 정확도: “청킹” 문제

대부분의 RAG 파이프라인은 “단순 청킹”을 사용합니다 – 텍스트를 500자마다 나누는 방식이죠.

  • HTML 실패: 태그 중간에서 분할될 수 있어 벡터 데이터베이스의 의미가 파괴됩니다.
  • Markdown 해결책: Markdown은 의미론적 청킹을 지원합니다. # 또는 ## 경계에서 데이터를 나누면 벡터 스토어의 각 청크가 일관된 독립 정보 단위가 됩니다.

기술적 통찰: Markdown 기반 RAG 파이프라인에서 “헤더 인식 청킹”은 검색 정확도를 40 %–60 % 향상시키는 것으로 나타났습니다. 이는 임베딩이 무작위 단어 근접성이 아니라 섹션의 맥락적 의도를 포착하기 때문입니다.

앞으로의 길: 데이터가 새로운 코드

우리는 “브라우저”가 AI 에이전트를 위한 OS가 되는 미래로 나아가고 있습니다. 2026년 데이터 추출의 목표는 단순히 “데이터를 갖는 것”이 아니라, 이를 처리할 머신이 사용할 수 있게 만드는 것입니다. 고밀도, 구조화된 Markdown만이 LLM을 더 똑똑하고, 빠르고, 저렴하게 운영할 수 있게 합니다.

우리는 복잡한 웹과 모델이 마땅히 받아야 할 깨끗한 컨텍스트 창 사이의 격차를 메우는 AI‑네이티브 추출의 미래를 구축하고 있습니다.

웹을 개인 데이터베이스로 바꿀 준비가 되셨나요?

무료로 시작하기!

커뮤니티에 참여하기

우리는 코드 없이 AI‑네이티브 추출의 미래를 만들고 있습니다.

Back to Blog

관련 글

더 보기 »

RAG가 작동하는 방식...

Retrieval‑Augmented Generation(RAG)이란 무엇인가요? AI 분야를 따라오고 있다면, RAG Retrieval‑Augmented Generation이라는 유행어를 확실히 들어봤을 것입니다. 그것은…

TOON for LLMs: 벤치마크 성능 분석

JSON을 사용한 모든 API 호출은 생각보다 더 많은 비용이 듭니다. 저는 Gemini 2.5 Flash를 사용해 실제 환경에서 추출을 수행했으며, 그 결과는 놀라웠습니다: JSON…