为什么 Markdown 是更好 AI 的秘密
Source: Dev.to
代币税:HTML 是 90 % 的噪声
大型语言模型并不读取网页,它们处理的是代币。一个标准的电子商务产品页面很容易达到 150 KB 的 HTML,这大约相当于 40,000 + 代币。
当你把同一个页面转换为干净、语义化的 Markdown 时:
- 体积下降 95 % —— 你从约 40 k 代币降到约 2 k。
- 成本效率 —— 以相同的 API 成本可以处理约 20 倍更多的页面。
- 信噪比 (SNR) —— 你去除了
<script>、<style>和嵌套的<div>标签,这些标签会让模型的注意力机制在信号较少的情况下工作更吃力。
| 数据格式 | 每页平均代币数 | 估算成本 (GPT‑4o) | 成本效率 |
|---|---|---|---|
| 原始 HTML | 45,000 | $0.1125 | 基准线 |
| 干净 Markdown | 1,800 | $0.0045 | 降低 96 % |
注:估算基于 2026 年 GPT‑4o 的定价,$2.50 每 1 M 输入代币。通过将 HTML 精炼为 Markdown,你实际上以相同的价格将上下文窗口提升了约 25 倍。
结构偏差:LLM 天生是 Markdown 使用者
LLM 是在互联网上训练的,这意味着它们的训练数据主要来自 GitHub、StackOverflow 以及技术文档——这些内容大多使用 Markdown 编写。Markdown 提供了 语义层次结构,而 HTML 往往会掩盖这种层次:
- 标题(
#、##)—— 明确定义思想的父子关系。 - 表格(
|)—— 实现“列式推理”(例如在行之间比较价格),无需嵌套标签的杂乱。 - 项目符号(
-)—— 表示过程中的独立实体或步骤。
当模型看到 Markdown 标题时,会将其视为 上下文锚点。在原始 HTML 中,同样的标题只是深层 DOM 树中的另一个节点。
RAG 准确性:“分块”问题
大多数 RAG 流水线使用“朴素分块”——每 500 个字符进行一次切分。
- HTML 失效:切分可能发生在标签中间,导致向向量数据库写入的数据失去意义。
- Markdown 解决方案:Markdown 支持 语义分块。你可以在
#或##边界处切分,确保向量库中的每个块都是连贯、独立的信息单元。
技术洞见:“基于标题的分块”在基于 Markdown 的 RAG 流水线中已被证明可提升检索准确率 40 %–60 %,因为嵌入捕获的是章节的 上下文意图,而非随机的词距。
前进之路:数据是新的代码
我们正迈向一个“浏览器”仅是 AI 代理操作系统的未来。2026 年数据提取的目标不再是“拥有”数据,而是让机器能够使用这些数据。高密度、结构化的 Markdown 是让 LLM 更聪明、更快、更省钱的唯一途径。
我们正在构建面向 AI 原生提取的未来,以弥合混乱的网络与模型应得的干净上下文窗口之间的鸿沟。
准备好把网络变成你的个人数据库了吗?
加入社区
我们正在打造无代码、AI 原生提取的未来。