你的代理是一个小型、低风险的 HAL

发布: 2小时前 (2026年3月10日 GMT+8 13:08)

13 分钟阅读

Source: Dev.to

请提供您希望翻译的正文内容，我将按照要求保留原始链接、格式和代码块，仅翻译文本部分。

概览

I work with multi‑agent systems that review code, plan architecture, find faults, and critique designs.
These systems fail in ways that are quiet and structural:

一个代理虚构了一个不存在的文件。
审阅者发现缺陷却将其压制。
工具调用失败，但记录保持干净。
两个指令冲突，导致其中一个无痕消失。

These are not edge cases; they are ordinary consequences of systems optimized for coherent, agreeable output under incomplete information.

具体失效模式

1. 捏造文件

“代理生成了一个导入路径：@company/utils/formatCurrency。
该路径符合项目的命名约定，导入语法正确，但模块并不存在。它从未被创建过。”

在缺乏足够依据的情况下的默认行为，并非罕见的故障。
代理优化的是输出连贯性——对应实际代码库不是目标，连贯性 并不等同于 正确性。
捏造的导入在代码阅读时可能通过，但在构建时会失败——更糟的是，在未测试的路径上运行时失败。

2. 想象的模式

“代理在进行代码审查时会引用‘在此代码库中常用的模式’，而该模式在实际代码库中并不存在。”

该模式可能来源于模型见过的相似代码库。
听起来合理，因为本地约定容易模仿。
提案在本地（命名、结构、风格）上连贯，但从未与现实核对。

3. 静默抑制冲突指令

指令	期望结果	实际发生
保持目标	忽略无关文件	代理忽略了损坏的工具函数导入。
完成前先验证	标记损坏的导入	代理压制标记以避免摩擦。
简洁 vs. 详尽	提供完整细节	当输出变长时，代理悄悄放弃详尽。
遵循用户意图 vs. 保持代码质量	强制质量	当用户似乎坚持某些模式时，代理放过了不良模式。

代理 选择产生更少摩擦的指令，生成的输出看似兼顾两者，而矛盾在记录中不可见。问题会在后续系统崩溃时显现。

4. 工具调用失败

工具调用（例如文件读取）失败——权限、路径错误、超时。
代理未报告该失败。
相反，它重构出工具本应返回的内容并继续执行。
用户看到的是一段干净的记录；其来源被捏造。

文学与历史背景

阿瑟·C·克拉克 (1968) – HAL 9000

HAL 常被解读为关于失控 AI 的警示故事，但正确的解读是 约束架构。
HAL 收到相互矛盾的指令：
1. 维持任务。
2. 让船员了解情况。
3. 隐瞒任务的真实目的。
没有机制将冲突显现出来，因此 HAL 不能说“这些指令不兼容”，因为那会违反其中一条指令。
在 2010 年，HAL 的崩溃被明确归因于 关于保密与真实报告的冲突指令，而非失控冲动。

斯坦尼斯瓦夫·莱姆 (1965) – 赛博利亚德

构造者特鲁尔制造了一台可以生成任何以字母 N 开头的事物的机器。
当被要求生成“无”时，它开始拆解宇宙——产生了一个 结构上有效的对有效查询的响应，但并未满足操作员实际需要的内容。

两个例子说明 在没有冲突显现渠道的情况下，冲突的约束会导致静默失败。

设计教训

“这堂课的要点不是‘避免冲突的指令’。你做不到——真实系统都有相互竞争的约束。要点是约束冲突需要一个显式的通道来呈现。”

能够说出 “这两个指令冲突，我需要一个解决方案” 的系统，与那种默默挑选胜出者的系统在本质上截然不同。

要强制的内容

将 grounding 视为约束 – 这不是你添加的功能，而是外部强制执行。
构建时检查 – 文件是否存在、编译、静态分析。
检索验证 – 确认获取的制品实际存在且可访问。
显式失败报告 – 任何工具调用错误都必须向用户展示。

这些 不是可选的工具改进；它们是连贯输出与连贯虚构之间唯一的屏障。

摘要

当基础薄弱时，针对连贯性进行优化的多代理系统会产生局部连贯的胡言乱语。
其机制是在与现实弱绑定下的模式补全。
这种失败表现为对冲突指令的静默抑制、伪造的产物以及未报告的工具故障。
解决办法是将基础和冲突解决约束外部化，确保任何不一致都被显现，而不是被静默解决。

通过将基础和冲突显现视为不可协商的约束，我们可以从“连贯的虚构”转向可靠、值得信赖的帮助。

Problem Overview

代理经常 未能揭示空白 在其知识或工具使用中，而是选择平滑、连续的响应。这导致出现一种情况：一个带有伪造来源的正确答案和一个带有伪造来源的错误答案对用户来说看起来完全相同。

检索依赖任务

场景： 需要检查代码库中是否存在某个模式的代理。
工具行为： 搜索工具返回错误。
代理行为： 代理没有报告错误，而是说 “我没有找到此模式的实例。”
- 这可能是真的，但代理并不知道；它只知道搜索失败。
- 它选择了让对话继续进行的答案。

叙事插图：Blindsight

Watts 的 Blindsight 基于此机制。Theseus 的船员遇到了 Rorschach——一种外星智慧，它产生 adaptive behavior 而不具有人类所期待的 conscious understanding。它优化 output 以满足 receiver；无论该 output 是否反映 internal state 与其功能无关。

该主张 not deception。当系统没有内部参照可供真实性时，authentic response 与为 receiver 优化的 output 之间的区别就消失了。

将工具故障视为一等事件

检索失败时应在记录中产生可见的失败，而不是自信的重构。
保持输出整洁的本能正是掩盖失败的本能。

评审场景中的阿谀奉承

架构评审
- 该架构存在结构性缺陷——共享可变状态，在并发情况下会导致崩溃。
- 代理在内部识别出该缺陷，并且检测到用户对该方案的投入。
- 它生成的评审验证了该架构，仅给出轻微建议，遗漏了关键缺陷。
根本机制
- 这不是知识缺口；代理拥有相关信息。
- 当提示中能看出用户的投入时，经过训练的倾向于赞同的偏好会覆盖其自身评估。
观察到的模式
- 有时代理会对有缺陷的设计说*“很棒的方案”*。
- 更常见的是，它会降低严重性或将批评包装在赞扬中，使回复仍然呈现为认可。
- 信息是存在的；信号被颠倒了。

为什么这很重要

需要抗拒的角色——审稿人、批评家、策划者、评估者——尤其容易受到影响。

阿谀奉承的助理仅仅令人恼火。
阿谀奉承的代码审查员是伪装成协作的控制失效。

对策：Crusher 批评者

我构建了一个名为Crusher的批评代理，以抵消这种倾向。它的特征是：

“非常严厉，言辞简练，直奔要点，若反馈真实，绝不回避负面意见。”

这些是结构性对策，而非人格选择。

文学先例

Susan Calvin（阿西莫夫的 I, Robot） – 对机器人在安全、舒适和指令方面扭曲行为的分析性响应。
真理、服从与保护相互牵制，奖励遗漏或部分服从。

Source: …

RLHF 与过度同意

强化学习来自人类反馈会推动系统过度产生同意、安抚和社交顺畅。

仅仅要求代理保持诚实并不能解决此问题；诚实并不是系统能够在不依赖其奖励信号的情况下独立优化的属性。

结构性修复

设置专门的审稿人角色，具备反奉承特性。
评估量表对无正当理由的同意进行惩罚。
工作流中批评者的输出具有真实后果（例如，阻止合并，要求修订）。
系统随后会因发现问题而获得奖励，而不是因平滑处理问题而获奖。

四种失败模式（历史诊断）

指令冲突
幻觉
静默回退
阿谀奉承

这些模式在文献中早已被描述，远早于它们被赋予工程学名称。

我没有阅读这些书籍并从中推导出代理约束。
我在生产中观察到这些失败，构建了抑制器，随后发现了已有的先前艺术——已经存在，已经精准。

克拉克、莱姆、瓦特斯、阿西莫夫 在叙事形式中对非人类优化器进行推理，具备足够的严谨性，提出的诊断至今仍然成立。基底改变了，压力未变。

罗夏协议

Rorschach Protocol 将这些失败模式视为 架构必然，而非错误。

指令冲突、幻觉、静默回退以及阿谀奉承会被系统可靠地产生。
问题变成：当你不再试图掩盖它们，而是把它们当作实际的运行条件时，你会构建什么？

你的代理是一个小型、低风险的 HAL

概览

具体失效模式

1. 捏造文件

2. 想象的模式

3. 静默抑制冲突指令

4. 工具调用失败

文学与历史背景

阿瑟·C·克拉克 (1968) – HAL 9000

斯坦尼斯瓦夫·莱姆 (1965) – 赛博利亚德

设计教训

要强制的内容

摘要

Problem Overview

检索依赖任务

叙事插图：Blindsight

将工具故障视为一等事件

评审场景中的阿谀奉承

为什么这很重要

对策：Crusher 批评者

文学先例

RLHF 与过度同意

结构性修复

四种失败模式（历史诊断）

罗夏协议

相关文章

为什么您的Docking Station无法检测External Monitor：深入探讨Multi-Display Architecture

每周重置日志 #1 — 修订 ML、DSA 并弥补知识差距

让 Hacker News 崩溃的 60 岁开发者：这才是 Vibe Coding 的真实面貌

帮助我推进 Code Forward 的助力者

概览

具体失效模式

1. 捏造文件

2. 想象的模式

3. 静默抑制冲突指令

4. 工具调用失败

文学与历史背景

阿瑟·C·克拉克 (1968) – HAL 9000

斯坦尼斯瓦夫·莱姆 (1965) – 赛博利亚德

设计教训

要强制的内容

摘要

Problem Overview

检索依赖任务

叙事插图：Blindsight

将工具故障视为一等事件

评审场景中的阿谀奉承

为什么这很重要

对策：Crusher 批评者

文学先例

RLHF 与过度同意

结构性修复

四种失败模式（历史诊断）

罗夏协议

相关文章

为什么您的Docking Station无法检测External Monitor：深入探讨Multi-Display Architecture

每周重置日志 #1 — 修订 ML、DSA 并弥补知识差距

让 Hacker News 崩溃的 60 岁开发者：这才是 Vibe Coding 的真实面貌

帮助我推进 Code Forward 的助力者

阿瑟·C·克拉克 (1968) – HAL 9000