新研究重新评估 Agents.md 文件在 AI 编码中的价值

发布: 2天前 (2026年3月8日 GMT+8 15:52)

7 分钟阅读

原文: Hacker News

Source: Hacker News

请提供需要翻译的正文内容，我将为您翻译成简体中文。

概览

尽管业界普遍推荐，new ETH Zurich paper 仍得出结论，AGENTS.md 文件往往会阻碍 AI 编码代理。研究人员的建议如下：

完全省略 LLM 生成的上下文文件。
将人工编写的指令限制在 不可推断的细节（例如，极其特定的工具或自定义构建命令）。

作者与动机

团队——Thibaud Gloaguen、Niels Mündler、Mark Müller、Veselin Raychev 和 Martin Vechev——通过以下几点说明了研究的理由：

约 60 000 个开源仓库目前已包含诸如 AGENTS.md 的上下文文件。
许多代理框架内置了自动生成这些文件的命令。
没有严格的实证研究 检查这些文件是否真的提升了 AI 代理解决实际编码任务的能力。

其中一位作者还参与了 Humanity Last Exam 基准。

数据集：AGENTbench

研究人员构建了 AGENTbench，一个包含 138 个真实世界 Python 任务 的新数据集，任务来源于小众仓库。这有意避免了像 SWE‑bench 这样的流行基准的偏差，因为 AI 模型可能已经部分记住了这些基准。

测试的代理

Agent	Model
Claude	3.5 Sonnet
Codex	GPT‑5.2
Codex	GPT‑5.1 mini
Qwen	Code

实验场景

无上下文文件
LLM 生成的上下文文件
人工编写的上下文文件

所有选定的小众仓库最初都提供了人工编写的上下文文件；前两种场景是通过删除或替换这些文件而创建的。

评估指标

任务成功率（由仓库单元测试决定）
代理步骤数
整体推理成本

关键发现

上下文类型	成功率变化 Δ 相较于无上下文	步骤 ↑	推理成本 ↑
LLM‑generated	‑3 %（下降）	↑	+20 %
Human‑written	+4 %（微小提升）	↑	+19 %

在 AGENTS.md 中包含架构概览或仓库结构说明 并未减少 模型定位相关文件所花费的时间。
代理通常遵循 AGENTS.md 文件中的指示，导致更多的测试、文件读取、grep 搜索和代码质量检查——这些行为往往对特定任务并非必要。
额外的上下文迫使推理模型 “更深入思考”，却未能产生更好的最终补丁。

作者结论

“我们发现所有上下文文件始终会增加完成任务所需的步骤数。LLM 生成的上下文文件对任务成功率有轻微的负面影响，而开发者编写的则提供了轻微的性能提升。

我们的追踪分析显示，上下文文件中的指令通常会被遵循，并导致更多的测试和更广泛的探索；然而，它们并未发挥有效的仓库概览作用。总体而言，我们的结果表明，上下文文件对代理行为的影响仅为边际性，且可能仅在手动编写时才有价值。这凸显了当前代理‑开发者建议与实际结果之间的具体差距，并激励未来在为编码代理自动生成简洁、任务相关指导的原则性方法上进行研究。”

社区反应

开发者 1 – 支持 `AGENTS.md`

“我读了这项研究。我认为它的效果恰恰与作者所说相反——它实际上是在为好的 AGENTS.md 文件背书。”

— Hacker News comment

“AGENTS.md 文件的最大用例是模型不了解、也无法立即从项目中推断出的领域知识。这类知识是通过观察代理因缺乏这些信息而挣扎，随着时间慢慢积累的。正是这种情况在闭源项目中非常常见，而在公开的 GitHub 项目中极为罕见——后者的大多数 AGENTS.md 文件都是最近围绕 LLM 的小型项目。如果在后者项目上看到 4 % 的提升，而这些项目本身的 AGENTS 文件质量参差不齐，那么对于拥有高质量 .md 文件的大项目来说，它们在与代理协作时是无价的。”

开发者 2 – `AGENTS.md` 作为人类工具

“我在两个项目中维护了大约 3 个月的 CLAUDE.md 文件，改进是显著的，但原因并非你想象的那样。它提供的实际 token 级别的上下文并不重要，重要的是编写它迫使你把之前只在脑子里的代码库信息说出来。”

— Reddit comment

要点

由 LLM 生成的 AGENTS.md 文件往往会降低性能并增加成本。
人工编写的文件可以略微提升成功率，但也会增加步骤数和推理成本。
AGENTS.md 的主要价值可能在于 为开发者提供文档编写的过程，而不是直接帮助 AI 代理。

未来的工作应探索 原则性、简洁、与任务相关的指导，真正惠及编码代理而不产生不必要的开销。

“we use this weird pattern for X because of a legacy constraint in Y.”  
Once that’s written down, the agent picks it up, but so does every new human on the team.

Developers can [review the paper online](https://arxiv.org/abs/2602.11988).  
The use of context files, such as `AGENTS.md`, `CLAUDE.md`, or `.cursorrules`, [grew in importance in the second half of 2025](https://www.linuxfoundation.org/press/linux-foundation-announces-the-formation-of-the-agentic-ai-foundation), coinciding with a larger push by AI coding agent providers.

关于作者

Bruno Couriol

显示更多 / 显示更少

新研究重新评估 Agents.md 文件在 AI 编码中的价值

概览

作者与动机

数据集：AGENTbench

测试的代理

实验场景

评估指标

关键发现

作者结论

社区反应

开发者 1 – 支持 `AGENTS.md`

开发者 2 – `AGENTS.md` 作为人类工具

要点

关于作者

Bruno Couriol

相关文章

看起来 “JVG algorithm” 只在极小的数字上获胜

“JVG算法”仅在极小数字上获胜

扎克伯格已“结束”与亚历山大·王的合作

首例飞机致命事故

概览

作者与动机

数据集：AGENTbench

测试的代理

实验场景

评估指标

关键发现

作者结论

社区反应

开发者 1 – 支持 AGENTS.md

开发者 2 – AGENTS.md 作为人类工具

要点

关于作者

Bruno Couriol

相关文章

看起来 “JVG algorithm” 只在极小的数字上获胜

“JVG算法”仅在极小数字上获胜

扎克伯格已“结束”与亚历山大·王的合作

首例飞机致命事故

开发者 1 – 支持 `AGENTS.md`

开发者 2 – `AGENTS.md` 作为人类工具