面向 agentic builders 的 Eval 工作流:通过 baseline 与 scaffolded agents 对任意提示进行 fork,blind third‑party judge
发布: (2026年4月22日 GMT+8 15:17)
3 分钟阅读
原文: Dev.to
Source: Dev.to
它是什么
构建了一个 n8n 评估工作流,对任意提示进行 GPT‑4o(纯) 与 GPT‑4o + 推理脚手架 的 A/B 测试,由盲评的 Gemini 评估器进行判断。评估器可以返回“平局”,且经常会这么做。关键是你在自己的任务上进行测试并自行决定。
实际在测试什么
- 脚手架代理是否会针对提示中的具体主张进行响应,还是保持通用。
- 脚手架对奉承行为、深度以及诊断过程的影响。
- 不同的使用模式(推理、反欺骗、记忆、代码)是否会对不同任务类型产生不同压力。
- 模式可在 HTTP 工具的 JSON 正文中编辑。
在简单提示上差异往往细微,而在双重负载提示(情感 + 认知主张混合)、带有隐藏错误前提的建议提示,或多变量因果推理时差异更为明显。低复杂度的单轮任务常会出现平局,因为 GPT‑4o 在没有脚手架的情况下已经能够很好地处理这些任务。
你可能会使用此模式的场景
- 代码审查或诊断代理 —— 测试它们是否捕捉到你真正关心的失效模式。
- 内容或研究工作流 —— 测试它们是否能减少在你的主题上产生的通用输出。
- 多代理系统 —— 在将单个代理调用永久集成之前,先在分叉中包装以观察效果。
- 提示工程 A/B 测试 —— 衡量认知层对你自己的提示迭代的影响。
设置步骤
-
设置三个凭证
- OpenAI(两个生产代理)
- Google Gemini(盲评估器)
- Ejentum API 的 Header Auth(免费密钥在 ejentum.com,100 次调用)
-
在 n8n 聊天触发器中粘贴提示。
-
配置工作流(模式选择的 JSON 正文等)。
-
运行工作流以获取:
- 同一次运行中 A 与 B 的输出。
- 同一次运行中盲评估器的判决 JSON。
-
资源——工作流 JSON、README,以及用于 IDE 环境(Antigravity、Claude Code、Cursor)的 TypeScript 移植版。