秘密不在于模型,而在于工具链。

发布: (2026年3月8日 GMT+8 02:04)
4 分钟阅读
原文: Dev.to

Source: Dev.to

Introduction

让 AI 代理编写代码已经不再是新鲜事。真正的挑战不在于模型有多聪明,而在于代理缺乏稳健、可长期运行的环境。

Harness Engineering

Harness Engineering 是专注于构建这些环境的学科。

  • Anthropic 在 2025 年 11 月发布了一篇博客文章,介绍了“用于长期运行代理的有效 harness”。link
  • OpenAI 在 2026 年 2 月发布了类似的文章。link

OpenAI 报告称,一个七人的团队在五个月内生成了约 100 万行代码,涉及 1,500 次 pull request——完全没有手写代码(自行报告)。

在 X 上,标题为 “2026 年的 10 倍技能是 Evaluation Engineering” 的帖子走红,凸显了从 “写代码” 向 “构建代理编写好代码的环境” 的转变。

Agent Harness

Agent Harness 负责执行:

  • 自动化环境搭建。
  • 使用进度文件和 Git 在会话之间传递进度。
  • 一次构建一个功能。
  • 自动运行端到端(E2E)测试。

Evaluation Harness

Evaluation Harness 为 AI 输出提供量化评分:

  • EleutherAI 维护了 60+ 基准。
  • Inspect AI 提供了 100+ 预构建评估。
  • LLM‑as‑a‑judge 让 AI 为 AI 打分。
  • 这些评估可集成到 CI/CD 门禁和安全测试中(例如,MLCommons AILuminate 的 59,624 条测试提示)。

Anthropic’s Two‑Step System

  1. Setup Agent 创建 init.sh 并生成 JSON 格式的功能列表。
  2. Coding Agent 对每个功能进行迭代:
    • 编写代码。
    • 编写测试。
    • 提交更改。
    • 重复。

进度通过 claude-progress.txt 和 Git 历史持久化。

仓库中包含 AGENTS.md(约 100 行),定义了整个代码库的规则。自定义 linter 和 CI 自动强制执行这些规则,省去在提示中嵌入约束的需求。

OpenAI’s Approach

OpenAI 的环境针对单个仓库进行了高度定制。其重点在于:

  • 与仓库的 CI 流水线紧密集成。
  • 自动生成 PR 和测试套件。

由于它是为特定项目量身定制的,若要直接迁移到其他代码库,需要进行大量改造。

Comparison and Limitations

AspectAnthropicOpenAI
Target domain全栈 Web 开发单一、高度定制的仓库
Portability更通用,但仍以 Web 为中心低——不能直接复用
Scalability将工作拆分为小步骤,强制仓库级规则依赖每个项目的专属工具链
Untested areas科学研究、金融建模原仓库之外的其他领域

两家公司在核心原则上趋于一致:

  1. 将知识存储在仓库中。
  2. 使用工具(linter、CI)强制规则。
  3. 将工作分解为小且可追踪的步骤。

Conclusion

模型会继续变得更聪明,但即使是最先进的模型,也无法在没有精心设计的环境的情况下持续进行长期开发。决定性因素不是模型的选择,而是你如何构建支撑它的 harness。

我从将 AI 融入真实团队和工作流的视角,覆盖 AI 代理设计、技能和上下文工程,分析基于第一手来源。

Follow for more:

0 浏览
Back to Blog

相关文章

阅读更多 »