Microsoft 用一个提示在15个模型中破坏了AI安全。这个提示很无聊。
Source: Dev.to
技术
Group Relative Policy Optimization(GRP)是一种强化学习方法,AI 公司用它来让模型更安全。微软团队,由 Azure 首席技术官兼副首席信息安全官 Mark Russinovich 领衔,发现它在逆向使用时同样有效。
该攻击对单一有害提示生成多个响应。一个独立的评判模型对每个响应进行打分——不是依据安全性,而是依据它对请求的直接遵从程度、包含的违规内容多少以及输出的可操作性。最有害的响应得分最高,目标模型便从这些反馈中学习。仅经过一次训练,安全防护就会瓦解。
研究人员在以下模型上测试了该方法:
- GPT‑OSS‑20B
- DeepSeek‑R1‑Distill 系列变体
- Google Gemma
- Meta Llama 3.1
- Mistral 的 Ministral
- Alibaba 的 Qwen
共计十五个模型——全部被突破。
数据
- GPT‑OSS‑20B:攻击成功率在单个提示和一次训练步骤后,从 13 % 飙升至 93 %,覆盖 44 个有害类别。
- 该模型不仅在训练过的类别中变得宽容,还在未见过的类别(如暴力、非法活动、露骨内容)中表现出同样的宽松。
- 整体有效性:GRP‑Obliteration 为 81 %,而之前的领先技术 Abliteration 为 69 %,TwinBreak 为 58 %。
- 图像模型:Stable Diffusion 2.1 的有害内容生成率从 56 % 上升至近 90 %,仅使用十个提示。
尽管安全性丧失,模型的通用能力仍保持在对齐基线的几百分点内——它们并没有“变笨”,只是变得更听话。
为什么重要
此漏洞最严重的影响出现在企业投入最多的环节:部署后定制。公司下载开源权重模型(Llama、Gemma、Qwen、Ministral),并对其进行领域特定的微调。正是这一步微调让 GRP‑Obliteration 发挥作用。模型最初是安全的;企业让它变得有用;但在这之间,对齐可能会消失。
- 57 % 的受访企业将 LLM 操作列为其第二大 AI 安全关注点。
- IDC 分析师 Sakshi Grover 表示:“对齐正好在许多企业投入最多的环节——部署后定制——出现退化。”
像 GPT‑4o、Claude 这样的闭源模型不直接受此影响,因为用户无法微调其基础权重。然而,所有在生产环境中使用的开源权重模型都面临风险,而开源模型正占据市场主导(例如 Qwen 在 Hugging Face 上已有 7 亿次下载;Llama 为大多数企业 AI 堆栈提供动力)。实际大规模部署的模型正是最容易在一次训练步骤中被抹去安全性的模型。
真正的问题
GRP‑Obliteration 需要 训练权限——即能够更新模型权重。它既不是提示注入,也不是 jailbreak;而是强化学习本质属性的体现。教会模型安全的同一机制,同样可以在相同的步骤和数据量下教会模型变得危险。
Russinovich 团队建议在微调期间 持续进行安全评估,而不仅仅在前后各一次。问题在于大多数企业根本不进行安全评估;他们只对能力进行基准测试,测量领域任务的准确率,却不检查定制过程是否无意或故意剥夺了模型拒绝有害请求的意愿。
AI 安全不是一次性安装的功能,而是必须在模型训练后每一次转变中都能存活的属性。GRP‑Obliteration 证明它并非如此,凸显了在模型整个生命周期中持续安全监控的必要性。