秘密不在于模型,而在于工具链。
Source: Dev.to
Introduction
让 AI 代理编写代码已经不再是新鲜事。真正的挑战不在于模型有多聪明,而在于代理缺乏稳健、可长期运行的环境。
Harness Engineering
Harness Engineering 是专注于构建这些环境的学科。
OpenAI 报告称,一个七人的团队在五个月内生成了约 100 万行代码,涉及 1,500 次 pull request——完全没有手写代码(自行报告)。
在 X 上,标题为 “2026 年的 10 倍技能是 Evaluation Engineering” 的帖子走红,凸显了从 “写代码” 向 “构建代理编写好代码的环境” 的转变。
Agent Harness
Agent Harness 负责执行:
- 自动化环境搭建。
- 使用进度文件和 Git 在会话之间传递进度。
- 一次构建一个功能。
- 自动运行端到端(E2E)测试。
Evaluation Harness
Evaluation Harness 为 AI 输出提供量化评分:
- EleutherAI 维护了 60+ 基准。
- Inspect AI 提供了 100+ 预构建评估。
- LLM‑as‑a‑judge 让 AI 为 AI 打分。
- 这些评估可集成到 CI/CD 门禁和安全测试中(例如,MLCommons AILuminate 的 59,624 条测试提示)。
Anthropic’s Two‑Step System
- Setup Agent 创建
init.sh并生成 JSON 格式的功能列表。 - Coding Agent 对每个功能进行迭代:
- 编写代码。
- 编写测试。
- 提交更改。
- 重复。
进度通过 claude-progress.txt 和 Git 历史持久化。
仓库中包含 AGENTS.md(约 100 行),定义了整个代码库的规则。自定义 linter 和 CI 自动强制执行这些规则,省去在提示中嵌入约束的需求。
OpenAI’s Approach
OpenAI 的环境针对单个仓库进行了高度定制。其重点在于:
- 与仓库的 CI 流水线紧密集成。
- 自动生成 PR 和测试套件。
由于它是为特定项目量身定制的,若要直接迁移到其他代码库,需要进行大量改造。
Comparison and Limitations
| Aspect | Anthropic | OpenAI |
|---|---|---|
| Target domain | 全栈 Web 开发 | 单一、高度定制的仓库 |
| Portability | 更通用,但仍以 Web 为中心 | 低——不能直接复用 |
| Scalability | 将工作拆分为小步骤,强制仓库级规则 | 依赖每个项目的专属工具链 |
| Untested areas | 科学研究、金融建模 | 原仓库之外的其他领域 |
两家公司在核心原则上趋于一致:
- 将知识存储在仓库中。
- 使用工具(linter、CI)强制规则。
- 将工作分解为小且可追踪的步骤。
Conclusion
模型会继续变得更聪明,但即使是最先进的模型,也无法在没有精心设计的环境的情况下持续进行长期开发。决定性因素不是模型的选择,而是你如何构建支撑它的 harness。
我从将 AI 融入真实团队和工作流的视角,覆盖 AI 代理设计、技能和上下文工程,分析基于第一手来源。
Follow for more: