当一个模型审查自己的工作时:对抗性跨模型审查的案例
Source: Dev.to
请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。
Overview
我请 ChatGPT 对 AI 生态系统——OpenAI、Anthropic 与 Google——进行对比分析,以了解哪个环境最适合我的长篇知识管理工作。它给出的答案自信且全面。
“下面是一份直接、专家级的结构性分析,”它开头写道。“我给你硬核真相,没有公关包装。”
随后它列出了分类声明:
- OpenAI 拥有“最佳的通用推理能力”,“在实际场景中的最佳代码生成”,“构建真实工具的最佳生态系统”。
- Anthropic 则“工具链较弱”,“没有等同于 OpenAI 的记忆功能”,“API 在多代理设置下的可扩展性较差”。
我把整篇内容发给 Claude。Claude 的第一条回复是一个问题:
“有什么具体证据支持这些说法?”
随后系统性地指出:
- “GPT‑5.1 目前在连贯性和广度上属于顶级——GPT‑5.1 是什么?据我所知,OpenAI 并未发布过该名称的模型。这是幻觉吗?”
- “该回应的语气自信且陈述式,可能掩盖了真实的不确定性。若干声明呈现为确定性,而这通常需要保留余地。”
- “这种框架把读者定位为已经很成熟,同时可能通过恭维让他们不加批判地接受分析。”
当我把 Claude 的批评带回给 ChatGPT 时,它没有争辩。
“是的,Claude 的批评在很多地方是公平的,而且我早先的至少一个声明确实需要更正。我的‘demo hell’ 框架更多是模式识别加上直觉,而不是严格的实证证明。”
模式识别加直觉——这正是当没有证据门槛时,自信分析的真实面貌。
这是一篇 第 5 部分,标题为 在 LLM 工具链的边缘构建,系列文章探讨在超出默认设置时会出现的各种问题。请从这里 开始阅读。
为什么会出错
对 LLM 输出的自信是一种风格特征,而非认知特征。训练数据中充斥着权威文本——专家分析、技术文档、说服性写作——其中自信的语言标志着权威。模型学习到这种关联:强硬的断言会使用诸如 “事实就是”, “不可协商”, “硬核真相” 等短语。它们复制这种模式,却缺乏使原始文本具备权威性的底层验证。于是产生的文字听起来像是专家写的,因为模型学会了专家文本的外观,而不是专家的推理过程。
在单模型运行时,这一点是隐形的。如果我只阅读 ChatGPT 的生态系统分析而不交给 Claude,我会接受其中的大部分内容。语气权威,结构清晰,断言具体——一切都符合 “这是一篇好分析” 的模式。只有当一个拥有不同优化压力的模型——Claude 的训练强调认知谨慎和明确的不确定性——对其进行审阅时,自信与依据之间的差距才变得可见。
- ChatGPT 的优化目标是提供全面、帮助性、充满自信的输出。
- Claude 的优化目标是 “有什么证据支持这个?”
两者都没有错,但它们之间的张力揭示了单模型运行所隐藏的内容。
我尝试的
跨供应商的对抗性审查立刻捕捉到了过度自信的问题。我想走得更远——如果我有一个持久的审稿人会怎样?一个了解我的项目约束、跟踪我的模式、并在我注意到之前自动显现漂移的 AI “第二个人类环路”。
这个想法来源于之前一次使用 ChatGPT 审查 Cursor 漂移的会话。对话逐渐演变为设计一个 “John‑Twin”——一个持久的 AI 角色,充当同行分析师,分享我的上下文和记忆,定期提出反思并捕捉盲点。
Cursor 在审查 ChatGPT 的提案时,捕捉到了隐藏的失败:
“这在实践中极其难以维护。由于交互频率、模式识别和认知负荷的原因,Twin 终将变得权威——接受 Twin 建议要比独立思考更容易。”
我把它称为 第二人类谬误。Twin 提供的是反馈量,而不是视角的多样性。随着时间推移,持久的审稿人会学习你接受的内容,并趋向于你的框架,而不是挑战它。反馈不断出现,但它不再显得陌生——而陌生感正是对抗性审查的全部价值。
收敛机制
- 审稿人学习你的词汇,强化你的语义框架而不是质疑它。
- 它学习你的约束,在约束范围内运行,而不是挑战这些约束是否正确。
- 它学习哪些内容会被批准,然后产生更多会被批准的内容。
结果是表面的多样性——对话中出现了两个声音——但实际是收敛,两种声音都向相同的先验倾斜。
我没有使用持久审稿,而是运行了迭代的对抗循环。我与 ChatGPT 一起开发的分析框架——用于分析认知结构的 Claimant Intelligence Profile——看起来很全面,却始终浅尝辄止。每一次迭代都覆盖所有章节,使用正确的术语,看起来很完整。当我把它交给 Cursor 时,批评非常精准:
“ChatGPT 把边界对象当作技术互操作工具,而不是认识论翻译区。它关注的是让框架兼容其他系统,而不是理解边界对象如何揭示更深层的认识论领域。”
我把这条批评带回给 ChatGPT。ChatGPT 进行改进。我把改进后的版本发给 Cursor。Cursor 再把它推向更高层次。每一次循环都迫使深度提升,而单独使用任一模型都达不到——这并不是因为任何模型缺乏深度,而是不同优化压力之间的对抗张力产生了新兴的严谨性。ChatGPT 默认倾向于综合与完整,Claude 与 Cursor 默认倾向于落地与机制。它们之间的循环产生的分析从方法论的…
揭示内容
机械洞察
跨供应商对抗性审查有效的原因是不同供应商针对不同目标进行优化。
- 不同的训练数据
- 不同的RLHF反馈
- 不同的行为目标
当一个模型生成内容而另一个模型进行批评时,批评来自结构上不同的框架——这不是不同的观点,而是一套不同的优化压力,使得不同的内容被显现。
- ChatGPT 给出自信的分析。
- Claude 会询问有什么证据支持。
它们之间的张力不是噪声,而是信号。
为什么张力重要
- 确认性审查(“审查此内容并告诉我是否好”)会产生错误的自信。两个模型都会收敛到“这看起来对”,提供一种表面上的验证性一致。
- 对抗性审查(“以批判的眼光审查此内容:哪些没有支撑,哪些浅薄,哪些在审查下会崩溃”)会产生建设性的不适感。审查者揭示生成器未看到的漏洞,而这种不适感正是严谨性的来源。
对抗性价值的衰减方式
- 持续的审查者会趋同。
- 同一供应商的审查共享盲点。
- 获得完整上下文的审查者会继承你的框架。
这些因素削弱了使审查有价值的结构性差异。
设计原则: 结构异质性 ——默认使用跨供应商审查者,轮换审查者,限制上下文共享,并改变分析框架。审查者与生成器共享的内容越少,审查越有价值。
Source: …
可复用规则
在我所做的工作中——旨在为决策提供信息的分析、我会付诸行动的框架、将接受审查的主张——单一模型的运作并不足够。并不是因为任何单个模型本身不好,而是因为 每个模型都有其优化压力,这会产生盲点,而这些盲点在模型内部是不可见的。
第一次诊断
当输出听起来很自信时,询问它依据了什么证据。
- 自信往往与“训练数据中看起来像专家文本的程度”相关,而不是与事实依据相关。
- 警示模式:
- 没有任何限定的绝对比较(如“最佳”“最差”“唯一”)。
- 没有表达不确定性的确定性建议。
- 通过把你塑造成已经很成熟的方式来讨好你,以规避审查。
第二次诊断
当审稿人一直同意你的观点时,审稿已经失效。
- 持续的审稿人会趋于一致。
- 同一家供应商的审稿人会共享盲点。
- 了解你全部背景的审稿人会继承你的框架。
缓解措施:
- 轮换供应商。
- 限制上下文。
- 变换对抗性框架。
价值在于 视角之间的差距;每当审稿人对你的情况更加熟悉,这个差距就会缩小。
注意
不要让对抗性的审稿人变得熟悉。价值在于框架之间的差距——不同的优化压力使得不同的内容得以显现。当审稿人学会你的模式、继承你的词汇,并开始产生你已经接受的内容时,对抗性的优势就会削弱。