新研究重新评估 Agents.md 文件在 AI 编码中的价值
Source: Hacker News
请提供需要翻译的正文内容,我将为您翻译成简体中文。
概览
尽管业界普遍推荐,new ETH Zurich paper 仍得出结论,AGENTS.md 文件往往会阻碍 AI 编码代理。研究人员的建议如下:
- 完全省略 LLM 生成的上下文文件。
- 将人工编写的指令限制在 不可推断的细节(例如,极其特定的工具或自定义构建命令)。
作者与动机
团队——Thibaud Gloaguen、Niels Mündler、Mark Müller、Veselin Raychev 和 Martin Vechev——通过以下几点说明了研究的理由:
- 约 60 000 个开源仓库目前已包含诸如
AGENTS.md的上下文文件。 - 许多代理框架内置了自动生成这些文件的命令。
- 没有严格的实证研究 检查这些文件是否真的提升了 AI 代理解决实际编码任务的能力。
其中一位作者还参与了 Humanity Last Exam 基准。
数据集:AGENTbench
研究人员构建了 AGENTbench,一个包含 138 个真实世界 Python 任务 的新数据集,任务来源于小众仓库。这有意避免了像 SWE‑bench 这样的流行基准的偏差,因为 AI 模型可能已经部分记住了这些基准。
测试的代理
| Agent | Model |
|---|---|
| Claude | 3.5 Sonnet |
| Codex | GPT‑5.2 |
| Codex | GPT‑5.1 mini |
| Qwen | Code |
实验场景
- 无上下文文件
- LLM 生成的上下文文件
- 人工编写的上下文文件
所有选定的小众仓库最初都提供了人工编写的上下文文件;前两种场景是通过删除或替换这些文件而创建的。
评估指标
- 任务成功率(由仓库单元测试决定)
- 代理步骤数
- 整体推理成本
关键发现
| 上下文类型 | 成功率变化 Δ 相较于无上下文 | 步骤 ↑ | 推理成本 ↑ |
|---|---|---|---|
| LLM‑generated | ‑3 %(下降) | ↑ | +20 % |
| Human‑written | +4 %(微小提升) | ↑ | +19 % |
- 在
AGENTS.md中包含架构概览或仓库结构说明 并未减少 模型定位相关文件所花费的时间。 - 代理通常 遵循
AGENTS.md文件中的指示,导致更多的测试、文件读取、grep 搜索和代码质量检查——这些行为往往对特定任务并非必要。 - 额外的上下文迫使推理模型 “更深入思考”,却未能产生更好的最终补丁。
作者结论
“我们发现所有上下文文件始终会增加完成任务所需的步骤数。LLM 生成的上下文文件对任务成功率有轻微的负面影响,而开发者编写的则提供了轻微的性能提升。
我们的追踪分析显示,上下文文件中的指令通常会被遵循,并导致更多的测试和更广泛的探索;然而,它们并未发挥有效的仓库概览作用。总体而言,我们的结果表明,上下文文件对代理行为的影响仅为边际性,且可能仅在手动编写时才有价值。这凸显了当前代理‑开发者建议与实际结果之间的具体差距,并激励未来在为编码代理自动生成简洁、任务相关指导的原则性方法上进行研究。”
社区反应
开发者 1 – 支持 AGENTS.md
“我读了这项研究。我认为它的效果恰恰与作者所说相反——它实际上是在为好的
AGENTS.md文件背书。”“
AGENTS.md文件的最大用例是模型不了解、也无法立即从项目中推断出的领域知识。这类知识是通过观察代理因缺乏这些信息而挣扎,随着时间慢慢积累的。正是这种情况在闭源项目中非常常见,而在公开的 GitHub 项目中极为罕见——后者的大多数AGENTS.md文件都是最近围绕 LLM 的小型项目。如果在后者项目上看到 4 % 的提升,而这些项目本身的AGENTS文件质量参差不齐,那么对于拥有高质量.md文件的大项目来说,它们在与代理协作时是无价的。”
开发者 2 – AGENTS.md 作为人类工具
“我在两个项目中维护了大约 3 个月的
CLAUDE.md文件,改进是显著的,但原因并非你想象的那样。它提供的实际 token 级别的上下文并不重要,重要的是编写它迫使你把之前只在脑子里的代码库信息说出来。”
要点
- 由 LLM 生成的
AGENTS.md文件往往会降低性能并增加成本。 - 人工编写的文件可以略微提升成功率,但也会增加步骤数和推理成本。
AGENTS.md的主要价值可能在于 为开发者提供文档编写的过程,而不是直接帮助 AI 代理。
未来的工作应探索 原则性、简洁、与任务相关的指导,真正惠及编码代理而不产生不必要的开销。
“we use this weird pattern for X because of a legacy constraint in Y.”
Once that’s written down, the agent picks it up, but so does every new human on the team.
Developers can [review the paper online](https://arxiv.org/abs/2602.11988).
The use of context files, such as `AGENTS.md`, `CLAUDE.md`, or `.cursorrules`, [grew in importance in the second half of 2025](https://www.linuxfoundation.org/press/linux-foundation-announces-the-formation-of-the-agentic-ai-foundation), coinciding with a larger push by AI coding agent providers.
关于作者
Bruno Couriol
显示更多 / 显示更少