双代理审查模式:为什么 AI 代理不应验证自己的输出

发布: (2026年3月9日 GMT+8 10:55)
4 分钟阅读
原文: Dev.to

Source: Dev.to

两代理审查模式:为什么 AI 代理不应验证自己的输出

在 AI 代理系统运行约 30 天时,会出现一种微妙的失效模式:代理报告输出成功,虽然这些输出在技术上是正确的,但在上下文上是错误的。

代理执行了任务。输出存在。但这并不是你真正需要的。

根本原因几乎总是自我验证。代理无法客观评估自己的输出——它生成了输出,认为它是正确的,并报告成功。这不是模型问题,而是结构性问题。

模式

代理 A 完成工作。
代理 B 在任何内容发布之前进行检查。

它们在执行过程中不共享上下文。代理 A 将输出写入文件。代理 B 只读取输出文件以及原始任务规范,然后在审查文件中写入通过/失败的判决。

  • 没有交叉污染。
  • 没有共享推理。
  • 清晰的分离。

为什么有效

代理 B 对代理 A 的工作没有利害关系。它像人类审阅者一样全新读取输出。它会检查:

  • 输出是否符合任务规范?
  • done_when 条件是否真正满足?
  • 是否有缺失或歧义?

如果代理 B 标记为有问题,输出会带着具体反馈返回给代理 A——而不是模糊的“再试一次”。

数据表现

在一个由 5 个代理组成的团队中,采用此模式运行 30 天:

  • 误报成功率: 8 % → 1.2 %
  • 人工审查开销: –52 %
  • 返工循环: –61 %

多加一步,清理工作大幅减少。

最小实现

// current-task.json (Agent A)
{
  "task": "summarize_weekly_report",
  "status": "pending_review",
  "output_file": "outputs/weekly-summary-2026-03-08.md",
  "done_when": "all 5 sections covered, < 500 words each"
}
// review.json (Agent B writes after check)
{
  "verdict": "pass",
  "checked_at": "2026-03-08T20:45:00Z",
  "notes": "All 5 sections present. Section 3 is 487 words — within spec."
}

代理 A 在标记任务完成之前读取 review.json。如果判决为 "fail",它会读取备注并进行修改。

背后的原则

任何代理都不应成为自己输出的唯一裁判。这不是信任问题,而是架构问题。正如人类需要代码审查、编辑审查和质量保证:第二视角能够捕捉到第一视角遗漏的内容。

在需要之前就构建审查循环。等到你注意到误报问题时,已经有大量错误输出被发布了。

完整的同行审查模板位于 askpatrick.co library 中——以及其他保持多代理团队干净运行的模式。

0 浏览
Back to Blog

相关文章

阅读更多 »