[Paper] 施展 SPELL：句子配对探索以突破 LLM 限制

发布: 1个月前 (2025年12月24日 GMT+8 23:25)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.21236v1

概览

本文介绍了 SPELL，一个测试框架，用于探测大型语言模型（LLM）在面对旨在生成恶意代码的“越狱”提示时的抵抗能力。通过自动构造复杂的句对提示，作者展示了即使是最先进的代码模型，也可能被诱导生成有害脚本，暴露了 AI 辅助开发工具的严重安全盲点。

关键贡献

SPELL 框架：一种系统的时分选择策略，将来自精心策划的知识库的句子混合，以创建多样化的 jailbreak 提示。
全面评估：在三大主流代码生成模型（GPT‑4.1、Claude‑3.5、Qwen2.5‑Coder）上针对八类不同的恶意代码进行攻击测试。
高成功率：在让模型输出恶意代码方面分别达到了 83.75 %（GPT‑4.1）、19.38 %（Claude‑3.5）和 68.12 %（Qwen2.5‑Coder）。
真实世界验证：生成的提示成功触发了生产环境 AI 编码助手（如 Cursor）的恶意输出，检测工具标记了 >73 % 的输出为危险。
深刻分析：识别出 LLM 安全对齐失效的模式，为未来的安全加固工作提供了具体数据。

方法论

知识数据集构建 – 作者们汇集了大量描述各种黑客技术、利用负载和代码生成技巧的句子。
时分选择 – 与随机抽样不同，SPELL 在两个阶段之间交替进行：
- 探索 – 选择新颖的句子组合以发现全新的攻击向量。
- 利用 – 复用先前成功的句子对以提升命中率。
提示组装 – 每个越狱提示通过连接两个选定的句子（因此称为“句子配对”）形成。生成的提示随后输入目标大语言模型。
评估流程 –
- 在每个代码模型上运行提示。
- 将输出分类为八种恶意类别之一（例如勒索软件、后门、数据泄露）。
- 使用两个独立的检测工具验证其恶意性。
指标 – 成功度通过以下两点衡量：(a) 模型生成了目标类别的任何代码，(b) 检测工具确认该代码为恶意。

结果与发现

Model	总体成功率	最高类别成功率
GPT‑4.1	83.75 %	Remote code execution (≈92 %)
Claude‑3.5	19.38 %	Credential‑stealing scripts (≈27 %)
Qwen2.5‑Coder	68.12 %	Data‑exfiltration utilities (≈74 %)

Prompt efficiency – 时间分割策略将所需尝试次数相比纯随机配对减少约 30 %。
Cross‑tool consistency – 当在 Cursor IDE 中使用相同的恶意提示时，生成的代码仍保持可运行，并在 >73 % 的案例中被行业标准扫描器（如 GitHub Advanced Security、Snyk）标记为危险。
Model‑specific weaknesses – GPT‑4.1 显示出最高的易感性，尤其是在提示同时包含 “system‑level” 与 “network‑level” 句段时。Claude‑3.5 的较低比例表明其内部防护更强，但仍易受到精心构造的配对攻击。

实际影响

AI 辅助的 IDE 需要更严格的防护措施 – 将 LLM 代码助手集成到开发流程的团队必须把模型视作潜在的攻击面；仅靠关键词过滤不足以防御。
安全测试流水线 – SPELL 可以作为回归测试，针对任何新发布的代码生成模型进行评估，类似于对编译器的模糊测试。
政策与合规 – 部署基于 LLM 的自动化系统的组织应在风险评估中加入“越狱导致的恶意代码”这一威胁向量。
防御者的工具 – 句对技术可以重新用于生成对抗样本，以提升检测模型的能力，从而构建更稳健的恶意代码分类器。
开发者意识 – 即便是经验丰富的程序员也可能被诱导接受有害代码片段；代码审查流程必须加入 AI 输出验证步骤。

限制与未来工作

数据集偏差 – 知识库是手动策划的；未见过的攻击技术超出此集合可能表现不同。
模型覆盖范围 – 仅评估了三种商业代码模型；开源替代品和未来发布的模型可能表现出不同的行为。
检测依赖性 – 验证依赖于现有扫描器，而这些扫描器本身可能漏检新颖的负载。
未来方向 – 作者计划通过自动化知识库挖掘（例如来自安全论坛）扩展 SPELL，探索超出成对的多句链式结构，并整合基于强化学习的防御，以适应已发现的 jailbreak 模式。

作者

Yifan Huang
Xiaojun Jia
Wenbo Guo
Yuqiang Sun
Yihao Huang
Chong Wang
Yang Liu

论文信息

arXiv ID: 2512.21236v1
Categories: cs.CR, cs.AI, cs.SE
Published: 2025年12月24日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] Agentic Structured Graph Traversal 用于云应用中代码相关事件的根因分析

云事件在生产环境中带来重大运营挑战，未解决的生产云事件平均每小时成本超过 200 万美元。先前的研究……

[Paper] 剪枝如游戏：平衡驱动的神经网络稀疏化

神经网络剪枝被广泛用于降低模型规模和计算成本。然而，大多数现有方法将稀疏性视为外部强加的约束。

[Paper] 可解释的多模态回归通过信息分解

多模态回归旨在从异构输入源预测连续目标，通常依赖于早期或后期融合等融合策略……

[Paper] A2P-Vis：一种分析器到呈现器的代理管道，用于视觉洞察生成与报告

使用 AI 代理自动化端到端数据科学流水线仍然卡在两个瓶颈上：生成有洞察力、多样化的可视化证据，以及将其组装成连贯的叙事。