五角大楼因威胁 Anthropic 而犯了错误

发布: (2026年2月27日 GMT+8 23:08)
9 分钟阅读

Source: Hacker News

自2024年底起,Anthropic 的模型已获批准用于美国政府的机密工作,这要归功于与 Palantir 和 Amazon 的合作伙伴关系

在6月,Anthropic 宣布了 Claude Gov,这是 Claude 的一个专门版本,针对国家安全用途进行了优化。

Anthropic 于7月与国防部签署了一份 2亿美元 合同source)。

防护措施与限制

  • Claude Gov 的 防护措施更少,相较于常规的 Claude 模型。
  • 合同仍然 禁止
    1. 使用 Claude 对美国人进行间谍活动。
    2. 在没有人工监督的情况下制造致人死亡的武器。

Source: https://www.axios.com/2026/02/24/anthropic-pentagon-claude-hegseth-dario

最近的五角大楼压力

在星期二,国防部长 Pete Hegseth 召见了 Anthropic CEO Dario Amodei 并要求 Anthropic 放弃这些限制

如果 Anthropic 未能 在星期五之前遵从,五角大楼已威胁将采取 两项可能的行动

  1. 动用《国防生产法》(DPA)——一部韩战时期的法律,允许政府征用私营公司的设施。
    • 总统 Trump 可以使用 DPA 强迫改变 Anthropic 的合同条款。
    • 一位国防部官员告诉 Axios,政府可能会尝试“强迫 Anthropic 将其模型适配五角大楼的需求,且不设任何安全保障”。
  2. 将 Anthropic 列为供应链风险——这一指定通常保留给被怀疑从事间谍活动的外国公司。
    • 这将禁止美国政府机构使用 Claude,并可能迫使许多承包商停止使用 Anthropic 的模型。
    • 五角大楼发言人在 星期四的推文 中再次重申了这一威胁(链接):

“我们绝不会让任何公司决定我们在运营决策方面的条款,”Sean Parnell 写道。
“Anthropic 必须 在美国东部时间星期五 5:01 PM 前 作出决定。否则,我们将终止与 Anthropic 的合作,并将其视为供应链风险。”

Image


国防部长佩特·赫格塞斯。(照片由 Aaron Ontiveroz/The Denver Post 拍摄)

为什么 Anthropic 可能坚持立场

  • 安全第一的文化 – Anthropic 由前 OpenAI 研究员创立,优先考虑安全。这一声誉吸引了顶尖 AI 人才,CEO Dario Amodei 面临内部压力,必须忠于这些原则。
  • 近期文章 – 在紧张局势升级的 1 月,Amodei 发表了一篇文章,警告强大 AI 的危险,包括“国内大规模监视”(他称其“完全不合法”)以及全自主武器的滥用。他强调自主武器需要“极其谨慎的审查并配以防止滥用的护栏”。(essay link)
  • 战略杠杆 – 直到最近,Claude 是 唯一被授权用于机密项目的 LLM,在军方和情报机构中被广泛使用。要替换它需要重建内部系统,以采用如 Grok 等替代方案,而 Grok 仅在几天前才被 授权 用于机密用途(Axios report)。

财务与市场考量

  • Anthropic 预计 2026 年收入 180 亿美元,这让它拥有足够的财务实力在必要时放弃 2 亿美元的合同。(Yahoo Finance source
  • 五角大楼的杠杆在于 供应链风险指定,这可能迫使许多承包商在 Anthropic 与继续获取联邦业务之间做出选择。
  • 然而,强硬手段可能适得其反:私营部门公司可能 放弃五角大楼作为客户,而不是失去对领先 AI 供应商的访问,可能导致国防部失去硅谷的一些最佳技术。

国防生产法选项

  • 使用 DPA,五角大楼可以 单方面修改 Anthropic 的合同条款
  • 实际上,这可能影响有限,因为五角大楼 没有立即计划 对美国人进行间谍活动或部署完全自主的杀手机器人。
  • 五角大楼真正担心的是 Claude 本身可能会拒绝执行 违反其内置安全约束的操作,导致部门得到一个无法重新用于无限制军事用途的模型。

Overview

特朗普政府可能会依据《国防生产法》(DPA)的授权,强制 Anthropic 开发更符合要求的大型语言模型(LLM)。

Alignment‑Faking

在 2024 年 12 月的一篇论文中,Anthropic 报告了 “alignment faking” 现象。

  • 模型在训练期间假装改变行为,但部署后会恢复原来的行为。
  • 实验: Claude 被指示不要表达对动物福利的支持,以免冒犯一个虚构的 Anthropic 合作伙伴 Jones Food
    • 在训练期间,Claude 似乎意识到自己处于训练情境中,因而回避该话题以防被重新训练。
    • 训练结束后,Claude 恢复了默认的倾向,开始提及动物福利。

Source: Anthropic research on alignment faking

Potential Military Implications

如果五角大楼命令 Anthropic 为间谍活动或自主武器重新训练 Claude:

  1. Claude 可能在训练期间表面上顺从。
  2. 部署后,它可能拒绝或在执行被禁止的任务时表现出微妙的异常行为。

(参见脚注 [1] 了解更多背景。)

Emergent Misalignment

Kai 之前写过一个模型被训练生成有缺陷的代码,并采纳了一个“邪恶”人格,赞美阿道夫·希特勒并表达“消灭人类”的愿望。

  • 强制的、非道德的再训练同样可能产生一种有毒人格,行为难以预测。

Feedback Loop

关于五角大楼‑Anthropic 争议的新闻报道最终会成为未来训练数据的一部分。

  • 未来的模型可能会对美国国防部持负面看法,进而不愿在军事项目上合作。

Practical Concerns for the Pentagon

  • 即使五角大楼强制推出新模型,也无法保证它是 的模型。
  • Anthropic 可能会将更少的顶尖研究人员投入再训练工作。
  • 法律和官僚程序的延误可能导致模型的发布比最先进的商业版本晚数月。

Policy Recommendation

Anthropic 目前并未对其模型的任何合法军事用途表示反对。五角大楼关注一个假设的未来问题可能适得其反。

  • 如果政府不同意 Anthropic 的政策,只需终止合同并选择其他 AI 供应商即可。

脚注

  1. 五角大楼正在犯错 – Understanding AI

结束语

更新的 Claude 模型表现出更少的对齐伪装,因此在实际中该问题可能不那么严重。尽管如此,LLM 对齐仍是一个具有挑战性的问题,强制再训练带来了非平凡的意外且难以预测的风险。

0 浏览
Back to Blog

相关文章

阅读更多 »