Harness Engineering:为何模型是商品,基础设施是你的护城河
Source: Dev.to
每个人都在追逐下一个模型升级——GPT‑5、Claude 4、Gemini Ultra——以为更新的模型最终能让 AI 代理正常工作。经过数月在生产环境中运行 AI 代理,我发现模型本身的重要性远不及你围绕它构建的基础设施。
什么是 Harness Engineering?
Harness Engineering 是构建基础设施的学科,该基础设施 包裹、约束并放大 AI 模型。
| Traditional thinking | Harness Engineering |
|---|---|
| Better Model → Better Results | Same Model + Better Harness → Dramatically Better Results |
| 更好的模型 → 更好的结果 | 相同模型 + 更佳 Harness → 结果显著提升 |
把它想象成一级方程式赛车:发动机固然重要,但车身底盘、空气动力学、轮胎、遥测以及进站策略才是决定冠军的关键。发动机(模型)仅是基本前提。
Source: …
五种 Harness
1. Prompt Harness
一种动态组装机制,根据以下要素构建最优提示:
- 当前任务上下文
- 相关的历史知识(自动注入)
- 活动的约束和权限
- 代理的身份与行为规则
每次代理启动时,都会收到 活的提示,它是针对当下时刻量身定制的,而不是静态的指令集。
2. Output Harness
捕获、验证并路由代理的输出。在开源控制平面 Evolve 中,代理必须调用 Self‑Report API;否则其工作将视为不存在。
# Self‑report heartbeat (mandatory)
curl -X POST /api/agent/heartbeat \
-d '{"activity":"coding","progress_pct":40}'
# Report discovered issue
curl -X POST /api/agent/discovery \
-d '{"title":"Found rate limit","priority":"high"}'
# Log learned lessons
curl -X POST /api/agent/review \
-d '{"learned":["Never use pkill -f"]}'这提供了实时可视化,并将信息反馈到知识循环中。
3. Constraint Harness
在不重启代理的情况下,可通过仪表盘切换的运行时边界:
- 代理可以浏览网页吗? ✅/❌
- 代理可以推送到 GitHub 吗? ✅/❌
- 代理可以花钱吗? ❌(始终阻止)
- 代理可以安装软件包吗? ✅/❌
约束被注入到提示中,因而代理能够了解并遵守其限制。
4. Runtime Harness
保持代理的存活与弹性:
- Watchdog:10 秒健康检查;挂起的进程会自动恢复。
- Heartbeat monitor:5 分钟无响应 → 轻推;15 分钟 → 人工介入。
- Crash recovery:使用
--resume并注入知识,使代理能够在上次中断处继续工作,且比之前更聪明。
5. Review Harness
由第二个、成本更低的 AI 对第一个 AI 的工作进行审查:
- 读取完整的对话日志(JSONL)。
- 提取关键决策和工具调用。
- 分析效率、正确性以及对指令的遵循程度。
- 生成改进建议。
成本几乎可以忽略不计,但洞察价值极高。
闭环架构
Agent runs → Output Harness captures lessons
↓
Secondary LLM scores & refines (Review Harness)
↓
Layered Knowledge Base stores them:
• Permanent (critical lessons)
• Recent (30‑day TTL)
• Task‑specific (current context)
↓
Prompt Harness injects relevant knowledge on next startup
↓
Agent becomes measurably smarter这个闭环将一次性脚本转变为自我演化的系统。
模型商品化,利用护城河
模型正在趋同——GPT‑4、Claude、Gemini 在大多数任务上大致相当。真正的区别在于 你如何充分利用模型,而不是你选择了哪个模型。
投资更好的 Harness
| 目标 | Harness 类型 |
|---|---|
| 更好的提示工程 | Prompt Harness |
| 更好的可观测性 | Output + Observation Harness |
| 更好的安全性 | Constraint Harness |
| 更好的可靠性 | Runtime Harness |
那些向更大模型倾注资源的公司正在玩错游戏。应当专注于构建稳健的 Harness。
Evolve:开源 Harness 平台
Evolve(MIT 许可证)实现了 Claude Code 代理的全部五种 harness。
git clone https://github.com/xmqywx/Evolve.git
cd Evolve && python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
# Front‑end
cd web && npm install && npm run build && cd ..
# Run the server
python run.py即使你不采用 Evolve,也请把你的 AI 基础设施当作一个 harness 来对待。问问自己:
- 你在模型外包装了什么?
- 你在强制哪些约束?
- 你的代理如何从昨天的经验中学习?
模型是商品,harness 是你的护城河。
你的 AI 代理基础设施是什么样的?我很想听听你的做法。