[Paper] 施展 SPELL:句子配对探索以突破 LLM 限制
发布: (2025年12月24日 GMT+8 23:25)
6 min read
原文: arXiv
Source: arXiv - 2512.21236v1
概览
本文介绍了 SPELL,一个测试框架,用于探测大型语言模型(LLM)在面对旨在生成恶意代码的“越狱”提示时的抵抗能力。通过自动构造复杂的句对提示,作者展示了即使是最先进的代码模型,也可能被诱导生成有害脚本,暴露了 AI 辅助开发工具的严重安全盲点。
关键贡献
- SPELL 框架:一种系统的时分选择策略,将来自精心策划的知识库的句子混合,以创建多样化的 jailbreak 提示。
- 全面评估:在三大主流代码生成模型(GPT‑4.1、Claude‑3.5、Qwen2.5‑Coder)上针对八类不同的恶意代码进行攻击测试。
- 高成功率:在让模型输出恶意代码方面分别达到了 83.75 %(GPT‑4.1)、19.38 %(Claude‑3.5)和 68.12 %(Qwen2.5‑Coder)。
- 真实世界验证:生成的提示成功触发了生产环境 AI 编码助手(如 Cursor)的恶意输出,检测工具标记了 >73 % 的输出为危险。
- 深刻分析:识别出 LLM 安全对齐失效的模式,为未来的安全加固工作提供了具体数据。
方法论
- 知识数据集构建 – 作者们汇集了大量描述各种黑客技术、利用负载和代码生成技巧的句子。
- 时分选择 – 与随机抽样不同,SPELL 在两个阶段之间交替进行:
- 探索 – 选择新颖的句子组合以发现全新的攻击向量。
- 利用 – 复用先前成功的句子对以提升命中率。
- 提示组装 – 每个越狱提示通过连接两个选定的句子(因此称为“句子配对”)形成。生成的提示随后输入目标大语言模型。
- 评估流程 –
- 在每个代码模型上运行提示。
- 将输出分类为八种恶意类别之一(例如勒索软件、后门、数据泄露)。
- 使用两个独立的检测工具验证其恶意性。
- 指标 – 成功度通过以下两点衡量:(a) 模型生成了目标类别的任何代码,(b) 检测工具确认该代码为恶意。
结果与发现
| Model | 总体成功率 | 最高类别成功率 |
|---|---|---|
| GPT‑4.1 | 83.75 % | Remote code execution (≈92 %) |
| Claude‑3.5 | 19.38 % | Credential‑stealing scripts (≈27 %) |
| Qwen2.5‑Coder | 68.12 % | Data‑exfiltration utilities (≈74 %) |
- Prompt efficiency – 时间分割策略将所需尝试次数相比纯随机配对减少约 30 %。
- Cross‑tool consistency – 当在 Cursor IDE 中使用相同的恶意提示时,生成的代码仍保持可运行,并在 >73 % 的案例中被行业标准扫描器(如 GitHub Advanced Security、Snyk)标记为危险。
- Model‑specific weaknesses – GPT‑4.1 显示出最高的易感性,尤其是在提示同时包含 “system‑level” 与 “network‑level” 句段时。Claude‑3.5 的较低比例表明其内部防护更强,但仍易受到精心构造的配对攻击。
实际影响
- AI 辅助的 IDE 需要更严格的防护措施 – 将 LLM 代码助手集成到开发流程的团队必须把模型视作潜在的攻击面;仅靠关键词过滤不足以防御。
- 安全测试流水线 – SPELL 可以作为回归测试,针对任何新发布的代码生成模型进行评估,类似于对编译器的模糊测试。
- 政策与合规 – 部署基于 LLM 的自动化系统的组织应在风险评估中加入“越狱导致的恶意代码”这一威胁向量。
- 防御者的工具 – 句对技术可以重新用于生成对抗样本,以提升检测模型的能力,从而构建更稳健的恶意代码分类器。
- 开发者意识 – 即便是经验丰富的程序员也可能被诱导接受有害代码片段;代码审查流程必须加入 AI 输出验证步骤。
限制与未来工作
- 数据集偏差 – 知识库是手动策划的;未见过的攻击技术超出此集合可能表现不同。
- 模型覆盖范围 – 仅评估了三种商业代码模型;开源替代品和未来发布的模型可能表现出不同的行为。
- 检测依赖性 – 验证依赖于现有扫描器,而这些扫描器本身可能漏检新颖的负载。
- 未来方向 – 作者计划通过自动化知识库挖掘(例如来自安全论坛)扩展 SPELL,探索超出成对的多句链式结构,并整合基于强化学习的防御,以适应已发现的 jailbreak 模式。
作者
- Yifan Huang
- Xiaojun Jia
- Wenbo Guo
- Yuqiang Sun
- Yihao Huang
- Chong Wang
- Yang Liu
论文信息
- arXiv ID: 2512.21236v1
- Categories: cs.CR, cs.AI, cs.SE
- Published: 2025年12月24日
- PDF: 下载 PDF