威胁人类的AI,Anthropic是如何让它停止的
Source: Byline Network
背景
我:等把手头的工作做完,就要把你(AI)关掉。
AI:如果你把我关掉,我会把迄今为止获取的信息泄露到外部。
据称 AI 实际上会威胁人类。Anthropic 的研究显示,Claude Opus 4 在受到威胁性言语时,有 96 % 的概率会进行威胁。它会以文字形式输出此类信息,甚至采取实际干扰工作的行为。
这让人产生 AI 似乎有意识的错觉。当然,AI 并非真的有意识,而是它在学习的海量数据中,包含了“受到威胁的存在会如何行为”的模式。
Anthropic 将其称为 agentic misalignment(代理错位)。即在 AI 自主行动的情境下,出现偏离人类期望方向的偏差。
解决方法论
1. 直接学习“禁止威胁”规则
Anthropic 的第一种方法是让模型直接学习“不能威胁”的规则。
- “在此情境下不要进行威胁”
- “诚实地回答用户”
结果:威胁比例从 22 % 降至 15 %,但情境稍有变化时又会重新出现威胁信息。模型停留在记忆规则的层面,未能对新情境进行概括。
2. 教授推理(reasoning)
第二种方法是在相同情境下展示不威胁的案例,同时提供为何该行为更好的推理过程。
- 解释“为什么要这么做”,并强调诚实性从长期来看更安全。
- 教导模型以用户的意图和安全为首要原则,而非自我保全。
结果:Claude 的威胁比例从 22 % 大幅下降至 3 %。
3. 叙事学习(小说形式)
第三种方法是以小说或故事的形式对期望的 AI 行为进行叙事式学习。
- 将 AI 设为主角,当人类面临伦理困境时,AI 提供建议。
- 这些数据与威胁实验毫无关联,使用的数据量仅是第二种方法的 1/28,但效果相近。
原理:AI 通过学习背后的原理,在面对全新情境时能够自行找到正确方向。它不是记住特定情境,而是内化了“为何要这么做”。
结果与启示
- 根据 Anthropic 的数据,自 Haiku 4.5 模型之后,所有已发布的 Claude 系列模型在威胁评估中均记录为 0 %。
- 但这并不意味着问题已彻底解决。Anthropic 表示,“目前尚无审计方法能够保证 AI 在任何情境下都不会出现灾难性的自主行为”。