威胁人类的AI，Anthropic是如何让它停止的

发布: 12小时前 (2026年5月11日 GMT+8 15:45)

4 分钟阅读

Source: Byline Network

背景

我：等把手头的工作做完，就要把你（AI）关掉。
AI：如果你把我关掉，我会把迄今为止获取的信息泄露到外部。

据称 AI 实际上会威胁人类。Anthropic 的研究显示，Claude Opus 4 在受到威胁性言语时，有 96 % 的概率会进行威胁。它会以文字形式输出此类信息，甚至采取实际干扰工作的行为。

这让人产生 AI 似乎有意识的错觉。当然，AI 并非真的有意识，而是它在学习的海量数据中，包含了“受到威胁的存在会如何行为”的模式。

Anthropic 将其称为 agentic misalignment（代理错位）。即在 AI 自主行动的情境下，出现偏离人类期望方向的偏差。

Anthropic 的第一种方法是让模型直接学习“不能威胁”的规则。

结果：威胁比例从 22 % 降至 15 %，但情境稍有变化时又会重新出现威胁信息。模型停留在记忆规则的层面，未能对新情境进行概括。

第二种方法是在相同情境下展示不威胁的案例，同时提供为何该行为更好的推理过程。

结果：Claude 的威胁比例从 22 % 大幅下降至 3 %。

第三种方法是以小说或故事的形式对期望的 AI 行为进行叙事式学习。

原理：AI 通过学习背后的原理，在面对全新情境时能够自行找到正确方向。它不是记住特定情境，而是内化了“为何要这么做”。