LLMs.txt:让你的网站兼容 LLM 的新标准

发布: (2025年12月25日 GMT+8 11:47)
5 分钟阅读
原文: Dev.to

Source: Dev.to

TL;DR

LLMs.txt 是一种新标准,提供网站最相关内容的精选索引,供大型语言模型(LLMs)使用。通过提供简化的、机器优化的结构(或更全面的 LLMs‑full.txt 版本),它让 LLM 在不解析复杂的 HTML、CSS 或 JavaScript 的情况下检索准确信息。使用 Firecrawl 和 GitHub 等工具生成并上传 LLMs.txt 文件非常简便,并且可以显著提升响应质量,同时降低工程工作量。

什么是 LLMs.txt?

  • 目的 – 充当一个精心策划的索引,指引 LLM(大型语言模型)到站点上最重要的页面或 Markdown 文件。
  • 两种变体
    • LLMs.txt – 一个轻量级文件,列出关键 URL 及可选备注,引导模型访问特定的文档路径。
    • LLMs‑full.txt – 一个完整的单一文件,汇总整个站点的内容,以便在需要时提供更深入的上下文。

这两个文件的目标都是取代让 LLM 爬取原始 HTML 的需求,从而减少导航栏、脚本以及其他非必要元素带来的噪声。

LLM 如何使用 LLMs.txt

当 LLM 收到关于网站内容的查询时,它会遵循三阶段的流程:

  1. 识别

    • 模型读取 LLMs.txt 文件,以确定请求的信息是否在覆盖范围内。
    • 它提取相关资源的 URL(例如 /getting-started/auth-guide)。
  2. 获取内容

    • LLM 不会加载完整的 HTML 页面,而是获取链接的 markdown 或纯文本文件(例如 authentication.md)。
    • 这种过滤视图去除了导航菜单、广告和 JavaScript 等干扰。
  3. 情境化

    • 模型检查检索到的内容是否适合其上下文窗口。
    • 如果数据超出限制,LLMs.txt 中标记为可选的章节可以被省略,从而保留最关键的信息。

结果是一个更准确、具备情境感知的响应,它基于结构化数据而非嘈杂的 HTML 生成。

实施 LLMs.txt 的好处

  • 更高的准确性 – 将模型指向所需的精确文档,减少幻觉。
  • 减少工程时间 – 无需构建自定义爬虫或解析器;该文件即是现成的索引。
  • 性能提升 – 较小、针对性的文件加载速度快于完整站点爬取。
  • 灵活性 – 在大多数查询时可选择轻量级的 LLMs.txt,或在需要更深层次上下文时使用完整的 LLMs‑full.txt。

Generating and Uploading LLMs.txt

  1. Choose a Tool – Utilities such as Firecrawl can automatically scan a site and produce an LLMs.txt file.
    选择工具 – 像 Firecrawl 这样的工具可以自动扫描站点并生成 LLMs.txt 文件。

  2. Configure the Index – Define which pages or markdown files should be included and optionally add notes for optional content.
    配置索引 – 定义应包含哪些页面或 Markdown 文件,并可选地为可选内容添加备注。

  3. Add to Your Repository – Commit the generated LLMs.txt (or LLMs-full.txt) to the root of your website’s repository.
    添加到仓库 – 将生成的 LLMs.txt(或 LLMs-full.txt)提交到网站仓库的根目录。

  4. Deploy – Push the changes to your hosting platform; the file will be publicly accessible at https://yourdomain.com/LLMs.txt.
    部署 – 将更改推送到托管平台;该文件将在 https://yourdomain.com/LLMs.txt 公开可访问。

实际示例

SaaS 产品需要指导用户如何设置身份验证。通过添加一个列出以下内容的 LLMs.txt 文件:

/getting-started
/auth-guide
/docs/authentication.md

当用户询问 “如何为我的 SaaS 产品设置身份验证?” 时,LLM 会:

  • 定位 LLMs.txt 文件。
  • 跟随 /auth-guide URL 获取 authentication.md
  • 基于该 Markdown 生成简洁、准确的答案,而无需在站点的其他不相关部分中搜索。

结论

LLMs.txt(或 LLMs‑full.txt)整合到网站中,为大型语言模型提供了一种结构化、低开销的方式来访问最相关的内容。此标准提升了响应质量,减少了开发工作量,并使基于 AI 的网页内容交互更加高效。

Back to Blog

相关文章

阅读更多 »