为什么 Markdown 是更好 AI 的秘密

发布: (2026年1月8日 GMT+8 23:28)
4 min read
原文: Dev.to

Source: Dev.to

代币税:HTML 是 90 % 的噪声

大型语言模型并不读取网页,它们处理的是代币。一个标准的电子商务产品页面很容易达到 150 KB 的 HTML,这大约相当于 40,000 + 代币

当你把同一个页面转换为干净、语义化的 Markdown 时:

  • 体积下降 95 % —— 你从约 40 k 代币降到约 2 k。
  • 成本效率 —— 以相同的 API 成本可以处理约 20 倍更多的页面。
  • 信噪比 (SNR) —— 你去除了 <script><style> 和嵌套的 <div> 标签,这些标签会让模型的注意力机制在信号较少的情况下工作更吃力。
数据格式每页平均代币数估算成本 (GPT‑4o)成本效率
原始 HTML45,000$0.1125基准线
干净 Markdown1,800$0.0045降低 96 %

注:估算基于 2026 年 GPT‑4o 的定价,$2.50 每 1 M 输入代币。通过将 HTML 精炼为 Markdown,你实际上以相同的价格将上下文窗口提升了约 25 倍。

结构偏差:LLM 天生是 Markdown 使用者

LLM 是在互联网上训练的,这意味着它们的训练数据主要来自 GitHub、StackOverflow 以及技术文档——这些内容大多使用 Markdown 编写。Markdown 提供了 语义层次结构,而 HTML 往往会掩盖这种层次:

  • 标题(###—— 明确定义思想的父子关系。
  • 表格(|—— 实现“列式推理”(例如在行之间比较价格),无需嵌套标签的杂乱。
  • 项目符号(-—— 表示过程中的独立实体或步骤。

当模型看到 Markdown 标题时,会将其视为 上下文锚点。在原始 HTML 中,同样的标题只是深层 DOM 树中的另一个节点。

RAG 准确性:“分块”问题

大多数 RAG 流水线使用“朴素分块”——每 500 个字符进行一次切分。

  • HTML 失效:切分可能发生在标签中间,导致向向量数据库写入的数据失去意义。
  • Markdown 解决方案:Markdown 支持 语义分块。你可以在 ### 边界处切分,确保向量库中的每个块都是连贯、独立的信息单元。

技术洞见:“基于标题的分块”在基于 Markdown 的 RAG 流水线中已被证明可提升检索准确率 40 %–60 %,因为嵌入捕获的是章节的 上下文意图,而非随机的词距。

前进之路:数据是新的代码

我们正迈向一个“浏览器”仅是 AI 代理操作系统的未来。2026 年数据提取的目标不再是“拥有”数据,而是让机器能够使用这些数据。高密度、结构化的 Markdown 是让 LLM 更聪明、更快、更省钱的唯一途径。

我们正在构建面向 AI 原生提取的未来,以弥合混乱的网络与模型应得的干净上下文窗口之间的鸿沟。

准备好把网络变成你的个人数据库了吗?

免费开始使用!

加入社区

我们正在打造无代码、AI 原生提取的未来。

Back to Blog

相关文章

阅读更多 »

RAG 是如何工作的...

什么是 Retrieval‑Augmented Generation(RAG)?如果你一直在关注 AI 领域,你一定听说过流行词汇 RAG(Retrieval‑Augmented Generation)。它……

TOON for LLMs:基准性能分析

每一次使用 JSON 的 API 调用,花费都比你想象的要高。我使用 Gemini 2.5 Flash 进行真实场景的提取,结果令人震惊:JSON……