LLMs.txt:让你的网站兼容 LLM 的新标准
Source: Dev.to
TL;DR
LLMs.txt 是一种新标准,提供网站最相关内容的精选索引,供大型语言模型(LLMs)使用。通过提供简化的、机器优化的结构(或更全面的 LLMs‑full.txt 版本),它让 LLM 在不解析复杂的 HTML、CSS 或 JavaScript 的情况下检索准确信息。使用 Firecrawl 和 GitHub 等工具生成并上传 LLMs.txt 文件非常简便,并且可以显著提升响应质量,同时降低工程工作量。
什么是 LLMs.txt?
- 目的 – 充当一个精心策划的索引,指引 LLM(大型语言模型)到站点上最重要的页面或 Markdown 文件。
- 两种变体
- LLMs.txt – 一个轻量级文件,列出关键 URL 及可选备注,引导模型访问特定的文档路径。
- LLMs‑full.txt – 一个完整的单一文件,汇总整个站点的内容,以便在需要时提供更深入的上下文。
这两个文件的目标都是取代让 LLM 爬取原始 HTML 的需求,从而减少导航栏、脚本以及其他非必要元素带来的噪声。
LLM 如何使用 LLMs.txt
当 LLM 收到关于网站内容的查询时,它会遵循三阶段的流程:
-
识别
- 模型读取 LLMs.txt 文件,以确定请求的信息是否在覆盖范围内。
- 它提取相关资源的 URL(例如
/getting-started、/auth-guide)。
-
获取内容
- LLM 不会加载完整的 HTML 页面,而是获取链接的 markdown 或纯文本文件(例如
authentication.md)。 - 这种过滤视图去除了导航菜单、广告和 JavaScript 等干扰。
- LLM 不会加载完整的 HTML 页面,而是获取链接的 markdown 或纯文本文件(例如
-
情境化
- 模型检查检索到的内容是否适合其上下文窗口。
- 如果数据超出限制,LLMs.txt 中标记为可选的章节可以被省略,从而保留最关键的信息。
结果是一个更准确、具备情境感知的响应,它基于结构化数据而非嘈杂的 HTML 生成。
实施 LLMs.txt 的好处
- 更高的准确性 – 将模型指向所需的精确文档,减少幻觉。
- 减少工程时间 – 无需构建自定义爬虫或解析器;该文件即是现成的索引。
- 性能提升 – 较小、针对性的文件加载速度快于完整站点爬取。
- 灵活性 – 在大多数查询时可选择轻量级的 LLMs.txt,或在需要更深层次上下文时使用完整的 LLMs‑full.txt。
Generating and Uploading LLMs.txt
-
Choose a Tool – Utilities such as Firecrawl can automatically scan a site and produce an LLMs.txt file.
选择工具 – 像 Firecrawl 这样的工具可以自动扫描站点并生成 LLMs.txt 文件。 -
Configure the Index – Define which pages or markdown files should be included and optionally add notes for optional content.
配置索引 – 定义应包含哪些页面或 Markdown 文件,并可选地为可选内容添加备注。 -
Add to Your Repository – Commit the generated
LLMs.txt(orLLMs-full.txt) to the root of your website’s repository.
添加到仓库 – 将生成的LLMs.txt(或LLMs-full.txt)提交到网站仓库的根目录。 -
Deploy – Push the changes to your hosting platform; the file will be publicly accessible at
https://yourdomain.com/LLMs.txt.
部署 – 将更改推送到托管平台;该文件将在https://yourdomain.com/LLMs.txt公开可访问。
实际示例
SaaS 产品需要指导用户如何设置身份验证。通过添加一个列出以下内容的 LLMs.txt 文件:
/getting-started
/auth-guide
/docs/authentication.md
当用户询问 “如何为我的 SaaS 产品设置身份验证?” 时,LLM 会:
- 定位
LLMs.txt文件。 - 跟随
/auth-guideURL 获取authentication.md。 - 基于该 Markdown 生成简洁、准确的答案,而无需在站点的其他不相关部分中搜索。
结论
将 LLMs.txt(或 LLMs‑full.txt)整合到网站中,为大型语言模型提供了一种结构化、低开销的方式来访问最相关的内容。此标准提升了响应质量,减少了开发工作量,并使基于 AI 的网页内容交互更加高效。