Harness Engineering:为何模型是商品,基础设施是你的护城河

发布: (2026年3月16日 GMT+8 04:52)
6 分钟阅读
原文: Dev.to

Source: Dev.to

每个人都在追逐下一个模型升级——GPT‑5、Claude 4、Gemini Ultra——以为更新的模型最终能让 AI 代理正常工作。经过数月在生产环境中运行 AI 代理,我发现模型本身的重要性远不及你围绕它构建的基础设施。

什么是 Harness Engineering?

Harness Engineering 是构建基础设施的学科,该基础设施 包裹、约束并放大 AI 模型。

Traditional thinkingHarness Engineering
Better Model → Better ResultsSame Model + Better Harness → Dramatically Better Results
更好的模型 → 更好的结果相同模型 + 更佳 Harness → 结果显著提升

把它想象成一级方程式赛车:发动机固然重要,但车身底盘、空气动力学、轮胎、遥测以及进站策略才是决定冠军的关键。发动机(模型)仅是基本前提。

Source:

五种 Harness

1. Prompt Harness

一种动态组装机制,根据以下要素构建最优提示:

  • 当前任务上下文
  • 相关的历史知识(自动注入)
  • 活动的约束和权限
  • 代理的身份与行为规则

每次代理启动时,都会收到 活的提示,它是针对当下时刻量身定制的,而不是静态的指令集。

2. Output Harness

捕获、验证并路由代理的输出。在开源控制平面 Evolve 中,代理必须调用 Self‑Report API;否则其工作将视为不存在。

# Self‑report heartbeat (mandatory)
curl -X POST /api/agent/heartbeat \
     -d '{"activity":"coding","progress_pct":40}'

# Report discovered issue
curl -X POST /api/agent/discovery \
     -d '{"title":"Found rate limit","priority":"high"}'

# Log learned lessons
curl -X POST /api/agent/review \
     -d '{"learned":["Never use pkill -f"]}'

这提供了实时可视化,并将信息反馈到知识循环中。

3. Constraint Harness

在不重启代理的情况下,可通过仪表盘切换的运行时边界:

  • 代理可以浏览网页吗? ✅/❌
  • 代理可以推送到 GitHub 吗? ✅/❌
  • 代理可以花钱吗? ❌(始终阻止)
  • 代理可以安装软件包吗? ✅/❌

约束被注入到提示中,因而代理能够了解并遵守其限制。

4. Runtime Harness

保持代理的存活与弹性:

  • Watchdog:10 秒健康检查;挂起的进程会自动恢复。
  • Heartbeat monitor:5 分钟无响应 → 轻推;15 分钟 → 人工介入。
  • Crash recovery:使用 --resume 并注入知识,使代理能够在上次中断处继续工作,且比之前更聪明。

5. Review Harness

由第二个、成本更低的 AI 对第一个 AI 的工作进行审查:

  1. 读取完整的对话日志(JSONL)。
  2. 提取关键决策和工具调用。
  3. 分析效率、正确性以及对指令的遵循程度。
  4. 生成改进建议。

成本几乎可以忽略不计,但洞察价值极高。

闭环架构

Agent runs → Output Harness captures lessons

Secondary LLM scores & refines (Review Harness)

Layered Knowledge Base stores them:
   • Permanent (critical lessons)
   • Recent (30‑day TTL)
   • Task‑specific (current context)

Prompt Harness injects relevant knowledge on next startup

Agent becomes measurably smarter

这个闭环将一次性脚本转变为自我演化的系统。

模型商品化,利用护城河

模型正在趋同——GPT‑4、Claude、Gemini 在大多数任务上大致相当。真正的区别在于 你如何充分利用模型,而不是你选择了哪个模型。

投资更好的 Harness

目标Harness 类型
更好的提示工程Prompt Harness
更好的可观测性Output + Observation Harness
更好的安全性Constraint Harness
更好的可靠性Runtime Harness

那些向更大模型倾注资源的公司正在玩错游戏。应当专注于构建稳健的 Harness。

Evolve:开源 Harness 平台

Evolve(MIT 许可证)实现了 Claude Code 代理的全部五种 harness。

git clone https://github.com/xmqywx/Evolve.git
cd Evolve && python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

# Front‑end
cd web && npm install && npm run build && cd ..

# Run the server
python run.py

即使你不采用 Evolve,也请把你的 AI 基础设施当作一个 harness 来对待。问问自己:

  • 你在模型外包装了什么?
  • 你在强制哪些约束?
  • 你的代理如何从昨天的经验中学习?

模型是商品,harness 是你的护城河。

你的 AI 代理基础设施是什么样的?我很想听听你的做法。

0 浏览
Back to Blog

相关文章

阅读更多 »