新研究重新评估 Agents.md 文件在 AI 编码中的价值

发布: (2026年3月8日 GMT+8 15:52)
7 分钟阅读

Source: Hacker News

请提供需要翻译的正文内容,我将为您翻译成简体中文。

概览

尽管业界普遍推荐,new ETH Zurich paper 仍得出结论,AGENTS.md 文件往往会阻碍 AI 编码代理。研究人员的建议如下:

  • 完全省略 LLM 生成的上下文文件
  • 将人工编写的指令限制在 不可推断的细节(例如,极其特定的工具或自定义构建命令)。

作者与动机

团队——Thibaud GloaguenNiels MündlerMark MüllerVeselin RaychevMartin Vechev——通过以下几点说明了研究的理由:

  • 约 60 000 个开源仓库目前已包含诸如 AGENTS.md 的上下文文件。
  • 许多代理框架内置了自动生成这些文件的命令。
  • 没有严格的实证研究 检查这些文件是否真的提升了 AI 代理解决实际编码任务的能力。

其中一位作者还参与了 Humanity Last Exam 基准

数据集:AGENTbench

研究人员构建了 AGENTbench,一个包含 138 个真实世界 Python 任务 的新数据集,任务来源于小众仓库。这有意避免了像 SWE‑bench 这样的流行基准的偏差,因为 AI 模型可能已经部分记住了这些基准。

测试的代理

AgentModel
Claude3.5 Sonnet
CodexGPT‑5.2
CodexGPT‑5.1 mini
QwenCode

实验场景

  1. 无上下文文件
  2. LLM 生成的上下文文件
  3. 人工编写的上下文文件

所有选定的小众仓库最初都提供了人工编写的上下文文件;前两种场景是通过删除或替换这些文件而创建的。

评估指标

  • 任务成功率(由仓库单元测试决定)
  • 代理步骤数
  • 整体推理成本

关键发现

上下文类型成功率变化 Δ 相较于无上下文步骤 ↑推理成本 ↑
LLM‑generated‑3 %(下降)+20 %
Human‑written+4 %(微小提升)+19 %
  • AGENTS.md 中包含架构概览或仓库结构说明 并未减少 模型定位相关文件所花费的时间。
  • 代理通常 遵循 AGENTS.md 文件中的指示,导致更多的测试、文件读取、grep 搜索和代码质量检查——这些行为往往对特定任务并非必要。
  • 额外的上下文迫使推理模型 “更深入思考”,却未能产生更好的最终补丁

作者结论

“我们发现所有上下文文件始终会增加完成任务所需的步骤数。LLM 生成的上下文文件对任务成功率有轻微的负面影响,而开发者编写的则提供了轻微的性能提升。

我们的追踪分析显示,上下文文件中的指令通常会被遵循,并导致更多的测试和更广泛的探索;然而,它们并未发挥有效的仓库概览作用。总体而言,我们的结果表明,上下文文件对代理行为的影响仅为边际性,且可能仅在手动编写时才有价值。这凸显了当前代理‑开发者建议与实际结果之间的具体差距,并激励未来在为编码代理自动生成简洁、任务相关指导的原则性方法上进行研究。”

社区反应

开发者 1 – 支持 AGENTS.md

“我读了这项研究。我认为它的效果恰恰与作者所说相反——它实际上是在为好的 AGENTS.md 文件背书。”

Hacker News comment

AGENTS.md 文件的最大用例是模型不了解、也无法立即从项目中推断出的领域知识。这类知识是通过观察代理因缺乏这些信息而挣扎,随着时间慢慢积累的。正是这种情况在闭源项目中非常常见,而在公开的 GitHub 项目中极为罕见——后者的大多数 AGENTS.md 文件都是最近围绕 LLM 的小型项目。如果在后者项目上看到 4 % 的提升,而这些项目本身的 AGENTS 文件质量参差不齐,那么对于拥有高质量 .md 文件的大项目来说,它们在与代理协作时是无价的。”

开发者 2 – AGENTS.md 作为人类工具

“我在两个项目中维护了大约 3 个月的 CLAUDE.md 文件,改进是显著的,但原因并非你想象的那样。它提供的实际 token 级别的上下文并不重要,重要的是编写它迫使你把之前只在脑子里的代码库信息说出来。”

Reddit comment

要点

  • 由 LLM 生成的 AGENTS.md 文件往往会降低性能并增加成本。
  • 人工编写的文件可以略微提升成功率,但也会增加步骤数和推理成本。
  • AGENTS.md 的主要价值可能在于 为开发者提供文档编写的过程,而不是直接帮助 AI 代理。

未来的工作应探索 原则性、简洁、与任务相关的指导,真正惠及编码代理而不产生不必要的开销。

“we use this weird pattern for X because of a legacy constraint in Y.”  
Once that’s written down, the agent picks it up, but so does every new human on the team.

Developers can [review the paper online](https://arxiv.org/abs/2602.11988).  
The use of context files, such as `AGENTS.md`, `CLAUDE.md`, or `.cursorrules`, [grew in importance in the second half of 2025](https://www.linuxfoundation.org/press/linux-foundation-announces-the-formation-of-the-agentic-ai-foundation), coinciding with a larger push by AI coding agent providers.

关于作者

Bruno Couriol

显示更多 / 显示更少

0 浏览
Back to Blog

相关文章

阅读更多 »

首例飞机致命事故

托马斯·塞尔弗里奇——动力航空史上的首位死亡者 1908年9月17日傍晚,一名年轻的美国军官托马斯·塞尔弗里奇爬进了一架…