面向 agentic builders 的 Eval 工作流：通过 baseline 与 scaffolded agents 对任意提示进行 fork，blind third‑party judge

发布: 3小时前 (2026年4月22日 GMT+8 15:17)

3 分钟阅读

Source: Dev.to

它是什么

构建了一个 n8n 评估工作流，对任意提示进行 GPT‑4o（纯）与 GPT‑4o + 推理脚手架 的 A/B 测试，由盲评的 Gemini 评估器进行判断。评估器可以返回“平局”，且经常会这么做。关键是你在自己的任务上进行测试并自行决定。

在简单提示上差异往往细微，而在双重负载提示（情感 + 认知主张混合）、带有隐藏错误前提的建议提示，或多变量因果推理时差异更为明显。低复杂度的单轮任务常会出现平局，因为 GPT‑4o 在没有脚手架的情况下已经能够很好地处理这些任务。

设置三个凭证
- OpenAI（两个生产代理）
- Google Gemini（盲评估器）
- Ejentum API 的 Header Auth（免费密钥在 ejentum.com，100 次调用）
在 n8n 聊天触发器中粘贴提示。
配置工作流（模式选择的 JSON 正文等）。
运行工作流以获取：
- 同一次运行中 A 与 B 的输出。
- 同一次运行中盲评估器的判决 JSON。
资源——工作流 JSON、README，以及用于 IDE 环境（Antigravity、Claude Code、Cursor）的 TypeScript 移植版。