为什么 Markdown 是更好 AI 的秘密

发布: 1个月前 (2026年1月8日 GMT+8 23:28)

4 分钟阅读

Source: Dev.to

代币税：HTML 是 90 % 的噪声

大型语言模型并不读取网页，它们处理的是代币。一个标准的电子商务产品页面很容易达到 150 KB 的 HTML，这大约相当于 40,000 + 代币。

当你把同一个页面转换为干净、语义化的 Markdown 时：

体积下降 95 % —— 你从约 40 k 代币降到约 2 k。
成本效率 —— 以相同的 API 成本可以处理约 20 倍更多的页面。
信噪比 (SNR) —— 你去除了 <script>、<style> 和嵌套的 <div> 标签，这些标签会让模型的注意力机制在信号较少的情况下工作更吃力。

数据格式	每页平均代币数	估算成本 (GPT‑4o)	成本效率
原始 HTML	45,000	$0.1125	基准线
干净 Markdown	1,800	$0.0045	降低 96 %

注：估算基于 2026 年 GPT‑4o 的定价，$2.50 每 1 M 输入代币。通过将 HTML 精炼为 Markdown，你实际上以相同的价格将上下文窗口提升了约 25 倍。

LLM 是在互联网上训练的，这意味着它们的训练数据主要来自 GitHub、StackOverflow 以及技术文档——这些内容大多使用 Markdown 编写。Markdown 提供了 语义层次结构，而 HTML 往往会掩盖这种层次：

当模型看到 Markdown 标题时，会将其视为 上下文锚点。在原始 HTML 中，同样的标题只是深层 DOM 树中的另一个节点。

大多数 RAG 流水线使用“朴素分块”——每 500 个字符进行一次切分。

HTML 失效：切分可能发生在标签中间，导致向向量数据库写入的数据失去意义。
Markdown 解决方案：Markdown 支持 语义分块。你可以在 # 或 ## 边界处切分，确保向量库中的每个块都是连贯、独立的信息单元。

技术洞见：“基于标题的分块”在基于 Markdown 的 RAG 流水线中已被证明可提升检索准确率 40 %–60 %，因为嵌入捕获的是章节的 上下文意图，而非随机的词距。

我们正迈向一个“浏览器”仅是 AI 代理操作系统的未来。2026 年数据提取的目标不再是“拥有”数据，而是让机器能够使用这些数据。高密度、结构化的 Markdown 是让 LLM 更聪明、更快、更省钱的唯一途径。

我们正在构建面向 AI 原生提取的未来，以弥合混乱的网络与模型应得的干净上下文窗口之间的鸿沟。

准备好把网络变成你的个人数据库了吗？

我们正在打造无代码、AI 原生提取的未来。