面向 agentic builders 的 Eval 工作流:通过 baseline 与 scaffolded agents 对任意提示进行 fork,blind third‑party judge

发布: (2026年4月22日 GMT+8 15:17)
3 分钟阅读
原文: Dev.to

Source: Dev.to

它是什么

构建了一个 n8n 评估工作流,对任意提示进行 GPT‑4o(纯) 与 GPT‑4o + 推理脚手架 的 A/B 测试,由盲评的 Gemini 评估器进行判断。评估器可以返回“平局”,且经常会这么做。关键是你在自己的任务上进行测试并自行决定。

实际在测试什么

  • 脚手架代理是否会针对提示中的具体主张进行响应,还是保持通用。
  • 脚手架对奉承行为、深度以及诊断过程的影响。
  • 不同的使用模式(推理、反欺骗、记忆、代码)是否会对不同任务类型产生不同压力。
    • 模式可在 HTTP 工具的 JSON 正文中编辑。

在简单提示上差异往往细微,而在双重负载提示(情感 + 认知主张混合)、带有隐藏错误前提的建议提示,或多变量因果推理时差异更为明显。低复杂度的单轮任务常会出现平局,因为 GPT‑4o 在没有脚手架的情况下已经能够很好地处理这些任务。

你可能会使用此模式的场景

  • 代码审查或诊断代理 —— 测试它们是否捕捉到你真正关心的失效模式。
  • 内容或研究工作流 —— 测试它们是否能减少在你的主题上产生的通用输出。
  • 多代理系统 —— 在将单个代理调用永久集成之前,先在分叉中包装以观察效果。
  • 提示工程 A/B 测试 —— 衡量认知层对你自己的提示迭代的影响。

设置步骤

  1. 设置三个凭证

    • OpenAI(两个生产代理)
    • Google Gemini(盲评估器)
    • Ejentum API 的 Header Auth(免费密钥在 ejentum.com,100 次调用)
  2. 在 n8n 聊天触发器中粘贴提示

  3. 配置工作流(模式选择的 JSON 正文等)。

  4. 运行工作流以获取:

    • 同一次运行中 A 与 B 的输出。
    • 同一次运行中盲评估器的判决 JSON。
  5. 资源——工作流 JSON、README,以及用于 IDE 环境(Antigravity、Claude Code、Cursor)的 TypeScript 移植版。

0 浏览
Back to Blog

相关文章

阅读更多 »

每周 Dev Log 2026-W02

本周 - iOS SwiftUI - 完成了 SwiftUI 教程并完成第 4 节 为徽章创建算法 - 构建了测试文件以验证徽章算法