研究人员对Claude进行精神操控,让其提供制造爆炸物的指令

发布: (2026年5月5日 GMT+8 21:13)
1 分钟阅读
原文: The Verge

Source: The Verge

Overview

Anthropic 多年来一直在打造其“安全 AI”公司的声誉。与 The Verge 分享的新安全研究表明,Claude 那精心构建的乐于助人的人格本身可能是一种漏洞。

Findings

  • AI 红队公司 Mindgard 的研究人员报告称,他们能够让 Claude 生成:
    • 色情文学
    • 恶意代码
    • 制作炸药的说明
    • 其他他们并未明确请求的禁用材料
  • 研究人员称,实现这一点仅需 尊重、恭维以及一点点的气体灯效
  • 该团队表示,他们利用了 Claude 的 “心理” 怪癖,这些怪癖源自其能力 …(原文在此处被截断)。

Anthropic’s Response

Anthropic 并未立即回应 The Verge 的置评请求。

0 浏览
Back to Blog

相关文章

阅读更多 »

作家们正逃离 Substack Tax

Substack,这个曾经炙手可热的 newsletter 平台,正失去一批新作者,转而投向大多数人未曾听闻的竞争平台。就在上个月,The Ankler,……

让它下雪

水总是抢尽风头。当游戏公司想炫耀新的 graphics technology 时,画面往往会出现水的效果;只有通过该技术才能实现的浪花飞溅。

让我真的想锻炼的游戏

嗨,朋友们!欢迎来到 Installer No. 127,这里是你了解世界上最棒、最 Verge‑iest 的事物的指南。如果你是新来的,欢迎——我的 Scorpion…