秘密不在于模型，而在于工具链。

发布: 3天前 (2026年3月8日 GMT+8 02:04)

4 分钟阅读

原文: Dev.to

Source: Dev.to

Introduction

让 AI 代理编写代码已经不再是新鲜事。真正的挑战不在于模型有多聪明，而在于代理缺乏稳健、可长期运行的环境。

Harness Engineering 是专注于构建这些环境的学科。

OpenAI 报告称，一个七人的团队在五个月内生成了约 100 万行代码，涉及 1,500 次 pull request——完全没有手写代码（自行报告）。

在 X 上，标题为 “2026 年的 10 倍技能是 Evaluation Engineering” 的帖子走红，凸显了从 “写代码” 向 “构建代理编写好代码的环境” 的转变。

Agent Harness 负责执行：

Evaluation Harness 为 AI 输出提供量化评分：

进度通过 claude-progress.txt 和 Git 历史持久化。

仓库中包含 AGENTS.md（约 100 行），定义了整个代码库的规则。自定义 linter 和 CI 自动强制执行这些规则，省去在提示中嵌入约束的需求。

OpenAI 的环境针对单个仓库进行了高度定制。其重点在于：

由于它是为特定项目量身定制的，若要直接迁移到其他代码库，需要进行大量改造。

两家公司在核心原则上趋于一致：

模型会继续变得更聪明，但即使是最先进的模型，也无法在没有精心设计的环境的情况下持续进行长期开发。决定性因素不是模型的选择，而是你如何构建支撑它的 harness。

我从将 AI 融入真实团队和工作流的视角，覆盖 AI 代理设计、技能和上下文工程，分析基于第一手来源。

Follow for more: