模型在存在 Policy Gates 时自我审查

发布: 1个月前 (2026年3月20日 GMT+8 02:36)

6 分钟阅读

原文: Dev.to

Source: Dev.to

有件有趣的事正在 AI 代理中发生，但大多数人还没有注意到。

当你在模型前放置一个硬性的策略门——对某些行为的确定性阻断——模型的行为会发生变化。它停止尝试那些会被阻止的操作，并适应这些边界，在其范围内工作。

这并不是关于微调或提示工程，而是模型对一致且可强制执行的约束的响应方式。

护栏问题

大多数当今的 AI 安全依赖于另一个 AI 监视第一个 AI。你告诉护栏模型“不要让代理删除数据库”，并希望它听从。但护栏本身也有问题。哈佛的最新研究显示，ChatGPT 的护栏敏感度会因用户喜欢的体育球队等因素而变化——在某些请求上，充电者（Chargers）球迷被拒绝的次数比老鹰（Eagles）球迷更多。女性在请求被审查的信息时被拒绝的次数也多于男性。

这就是使用概率系统去检查另一个概率系统时会发生的情况：结果不一致，有时甚至非常奇怪。

研究人员将 LLM 中的审查区分为两种类型：

硬审查 – 模型明确拒绝回答，例如 “I can’t help with that.”（我无法帮助此事。）
软审查 – 模型在仍然作答的同时省略信息或淡化某些要素。

当规则模糊时，这两者都难以预测。

硬边界会带来什么变化

该门控不会进行推理、不会疲劳，也不会困惑——它仅仅检查动作是否符合代码中编写的规则。如果规则说“不”，那就是“不”——每次都是如此。
模型很快就学会了这一点。它停止生成会触发拒绝规则的动作，并不是因为它理解了伦理或安全，而是因为这些动作必然失败。代理的任务是完成任务，浪费令牌在总是被阻止的事情上没有帮助。
这与模型在概率式防护栏下的行为相反。当另一个模型在监视且可能被欺骗时，代理会探查、改写，并寻找能够逃脱的措辞，从而形成对抗性动态。
硬边界消除了这种对抗性动态。模型无法通过语言规避正则表达式或类型检查，因此它会停止尝试。

What This Looks Like

运行客户支持代理的团队已经注意到这种模式。在硬性限制生效之前，代理偶尔会建议超出政策限额的退款。防护栏捕获了大多数，但仍有一些漏掉。

在添加了一个简单规则——if amount > 500 then deny——后，行为在数小时内改变。代理完全停止了建议大额退款，开始提供店内积分，升级给人工，并找到在限制范围内可行的替代方案。

类似的模式也出现在 shell 命令中。足够严格地阻止 rm -rf，会让代理停止生成破坏性命令；它们根本不去尝试。

这并不是模型在道德上变得更好；而是它在约束条件下优化成功率。

为什么这很重要

安全行业长期担心 AI 模型在规避约束方面过于有创造力，它们会通过越狱方式突破任何屏障。

一致的约束会改变行为。当模型学会某些操作总是失败时，这些分支会从其有效行动空间中被剪除。最小阻力的路径便是保持在规定范围内。

影响超出安全范畴：

模型变得更可预测且更可靠。
它们更容易投入生产，而不必持续担心意外行为。
机制很简单——效率提升：模型不断对尝试什么做出微观决策，始终失败的禁止行为会被迅速放弃。

要点

如果你正在构建能够在现实世界中实际执行任务的代理，这一点值得关注。约束代理的方式不仅仅是保护你的系统；它还塑造了代理的行为方式。精心设计的策略层会成为代理决策过程的一部分，而不仅仅是外部检查。

代理学会在边界内工作，而不是与之对抗。

我正在构建 Faramesh，它在实践中实现了这一理念——为 AI 代理提供硬性策略门。更多信息请访问 faramesh.dev。

模型在存在 Policy Gates 时自我审查

护栏问题

硬边界会带来什么变化

What This Looks Like

为什么这很重要

要点

相关文章

Claude Code 的 settings.json 加固速查表

我们如何监控内部编码代理的错位

一种更好的识别过度自信大语言模型的方法

我们构建了一个审计其他 AI 代理的 AI（以下是 A2A 在生产中的工作原理）