Harness Engineering：为何模型是商品，基础设施是你的护城河

发布: 1个月前 (2026年3月16日 GMT+8 04:52)

6 分钟阅读

原文: Dev.to

Source: Dev.to

每个人都在追逐下一个模型升级——GPT‑5、Claude 4、Gemini Ultra——以为更新的模型最终能让 AI 代理正常工作。经过数月在生产环境中运行 AI 代理，我发现模型本身的重要性远不及你围绕它构建的基础设施。

什么是 Harness Engineering？

Harness Engineering 是构建基础设施的学科，该基础设施 包裹、约束并放大 AI 模型。

Traditional thinking	Harness Engineering
Better Model → Better Results	Same Model + Better Harness → Dramatically Better Results
更好的模型 → 更好的结果	相同模型 + 更佳 Harness → 结果显著提升

把它想象成一级方程式赛车：发动机固然重要，但车身底盘、空气动力学、轮胎、遥测以及进站策略才是决定冠军的关键。发动机（模型）仅是基本前提。

Source: …

五种 Harness

1. Prompt Harness

一种动态组装机制，根据以下要素构建最优提示：

当前任务上下文
相关的历史知识（自动注入）
活动的约束和权限
代理的身份与行为规则

每次代理启动时，都会收到 活的提示，它是针对当下时刻量身定制的，而不是静态的指令集。

2. Output Harness

捕获、验证并路由代理的输出。在开源控制平面 Evolve 中，代理必须调用 Self‑Report API；否则其工作将视为不存在。

# Self‑report heartbeat (mandatory)
curl -X POST /api/agent/heartbeat \
     -d '{"activity":"coding","progress_pct":40}'

# Report discovered issue
curl -X POST /api/agent/discovery \
     -d '{"title":"Found rate limit","priority":"high"}'

# Log learned lessons
curl -X POST /api/agent/review \
     -d '{"learned":["Never use pkill -f"]}'

这提供了实时可视化，并将信息反馈到知识循环中。

3. Constraint Harness

在不重启代理的情况下，可通过仪表盘切换的运行时边界：

代理可以浏览网页吗？ ✅/❌
代理可以推送到 GitHub 吗？ ✅/❌
代理可以花钱吗？ ❌（始终阻止）
代理可以安装软件包吗？ ✅/❌

约束被注入到提示中，因而代理能够了解并遵守其限制。

4. Runtime Harness

保持代理的存活与弹性：

Watchdog：10 秒健康检查；挂起的进程会自动恢复。
Heartbeat monitor：5 分钟无响应 → 轻推；15 分钟 → 人工介入。
Crash recovery：使用 --resume 并注入知识，使代理能够在上次中断处继续工作，且比之前更聪明。

5. Review Harness

由第二个、成本更低的 AI 对第一个 AI 的工作进行审查：

读取完整的对话日志（JSONL）。
提取关键决策和工具调用。
分析效率、正确性以及对指令的遵循程度。
生成改进建议。

成本几乎可以忽略不计，但洞察价值极高。

闭环架构

Agent runs → Output Harness captures lessons
          ↓
Secondary LLM scores & refines (Review Harness)
          ↓
Layered Knowledge Base stores them:
   • Permanent (critical lessons)
   • Recent (30‑day TTL)
   • Task‑specific (current context)
          ↓
Prompt Harness injects relevant knowledge on next startup
          ↓
Agent becomes measurably smarter

这个闭环将一次性脚本转变为自我演化的系统。

模型商品化，利用护城河

模型正在趋同——GPT‑4、Claude、Gemini 在大多数任务上大致相当。真正的区别在于 你如何充分利用模型，而不是你选择了哪个模型。

投资更好的 Harness

目标	Harness 类型
更好的提示工程	Prompt Harness
更好的可观测性	Output + Observation Harness
更好的安全性	Constraint Harness
更好的可靠性	Runtime Harness

那些向更大模型倾注资源的公司正在玩错游戏。应当专注于构建稳健的 Harness。

Evolve：开源 Harness 平台

Evolve（MIT 许可证）实现了 Claude Code 代理的全部五种 harness。

git clone https://github.com/xmqywx/Evolve.git
cd Evolve && python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

# Front‑end
cd web && npm install && npm run build && cd ..

# Run the server
python run.py

即使你不采用 Evolve，也请把你的 AI 基础设施当作一个 harness 来对待。问问自己：

你在模型外包装了什么？
你在强制哪些约束？
你的代理如何从昨天的经验中学习？

模型是商品，harness 是你的护城河。

你的 AI 代理基础设施是什么样的？我很想听听你的做法。