模型在存在 Policy Gates 时自我审查
Source: Dev.to
有件有趣的事正在 AI 代理中发生,但大多数人还没有注意到。
当你在模型前放置一个硬性的策略门——对某些行为的确定性阻断——模型的行为会发生变化。它停止尝试那些会被阻止的操作,并适应这些边界,在其范围内工作。
这并不是关于微调或提示工程,而是模型对一致且可强制执行的约束的响应方式。
护栏问题
大多数当今的 AI 安全依赖于另一个 AI 监视第一个 AI。你告诉护栏模型“不要让代理删除数据库”,并希望它听从。但护栏本身也有问题。哈佛的最新研究显示,ChatGPT 的护栏敏感度会因用户喜欢的体育球队等因素而变化——在某些请求上,充电者(Chargers)球迷被拒绝的次数比老鹰(Eagles)球迷更多。女性在请求被审查的信息时被拒绝的次数也多于男性。
这就是使用概率系统去检查另一个概率系统时会发生的情况:结果不一致,有时甚至非常奇怪。
研究人员将 LLM 中的审查区分为两种类型:
- 硬审查 – 模型明确拒绝回答,例如 “I can’t help with that.”(我无法帮助此事。)
- 软审查 – 模型在仍然作答的同时省略信息或淡化某些要素。
当规则模糊时,这两者都难以预测。
硬边界会带来什么变化
- 该门控不会进行推理、不会疲劳,也不会困惑——它仅仅检查动作是否符合代码中编写的规则。如果规则说“不”,那就是“不”——每次都是如此。
- 模型很快就学会了这一点。它停止生成会触发拒绝规则的动作,并不是因为它理解了伦理或安全,而是因为这些动作必然失败。代理的任务是完成任务,浪费令牌在总是被阻止的事情上没有帮助。
- 这与模型在概率式防护栏下的行为相反。当另一个模型在监视且可能被欺骗时,代理会探查、改写,并寻找能够逃脱的措辞,从而形成对抗性动态。
- 硬边界消除了这种对抗性动态。模型无法通过语言规避正则表达式或类型检查,因此它会停止尝试。
What This Looks Like
运行客户支持代理的团队已经注意到这种模式。在硬性限制生效之前,代理偶尔会建议超出政策限额的退款。防护栏捕获了大多数,但仍有一些漏掉。
在添加了一个简单规则——if amount > 500 then deny——后,行为在数小时内改变。代理完全停止了建议大额退款,开始提供店内积分,升级给人工,并找到在限制范围内可行的替代方案。
类似的模式也出现在 shell 命令中。足够严格地阻止 rm -rf,会让代理停止生成破坏性命令;它们根本不去尝试。
这并不是模型在道德上变得更好;而是它在约束条件下优化成功率。
为什么这很重要
安全行业长期担心 AI 模型在规避约束方面过于有创造力,它们会通过越狱方式突破任何屏障。
一致的约束会改变行为。当模型学会某些操作总是失败时,这些分支会从其有效行动空间中被剪除。最小阻力的路径便是保持在规定范围内。
影响超出安全范畴:
- 模型变得更可预测且更可靠。
- 它们更容易投入生产,而不必持续担心意外行为。
- 机制很简单——效率提升:模型不断对尝试什么做出微观决策,始终失败的禁止行为会被迅速放弃。
要点
如果你正在构建能够在现实世界中实际执行任务的代理,这一点值得关注。约束代理的方式不仅仅是保护你的系统;它还塑造了代理的行为方式。精心设计的策略层会成为代理决策过程的一部分,而不仅仅是外部检查。
代理学会在边界内工作,而不是与之对抗。
我正在构建 Faramesh,它在实践中实现了这一理念——为 AI 代理提供硬性策略门。更多信息请访问 faramesh.dev。