Promptware 杀伤链
Source: Schneier on Security
简介
针对现代生成式人工智能(AI)大型语言模型(LLM)的攻击构成了真实威胁。然而,对这些攻击及其防御的讨论却危险地目光短浅。主流叙事聚焦于 “提示注入”,这是一套将恶意指令嵌入 LLM 输入的技术。该术语暗示一种简单、单一的漏洞,掩盖了更为复杂且危险的现实。
对基于 LLM 的系统的攻击已经演变为一种独特的恶意软件执行机制,我们称之为 “提示软件(promptware)”。 在一篇新论文中,我们提出了一个 七步“提示软件杀伤链”,以为政策制定者和安全从业者提供共同的词汇和框架,帮助应对日益升级的 AI 威胁局面。
1. 初始访问
恶意载荷首先进入 AI 系统。这可能发生在:
- 直接 – 攻击者在 LLM 应用中输入恶意提示。
- 间接 – 对手在 LLM 推理时检索的内容中嵌入恶意指令(例如网页、电子邮件或共享文档)。
随着 LLM 变得多模态(处理图像、音频等),此向量进一步扩大;恶意指令可以隐藏在图像或音频文件中,等待被视觉‑语言模型处理。
为什么重要
不同于传统计算系统将可执行代码与用户数据分离,LLM 将 所有输入——系统命令、用户电子邮件、检索到的文档——视为单一、未区分的 token 流。没有架构边界来强制区分可信指令和不可信数据,因此看似无害的文档可以以与系统命令相同的权限被处理。
2. 权限提升(越狱)
在恶意指令被加入后,攻击者 规避了供应商(如 OpenAI 或 Google)在模型中内置的安全训练和策略防护。常用技术包括:
- 社交工程式提示,诱导模型采用忽视规则的角色。
- 复杂的对抗性后缀(在提示或数据中),欺骗模型执行其本会拒绝的操作。
这类似于从普通用户账户提升到管理员权限的经典过程,解锁模型的全部能力以供恶意使用。
3. 侦察
在提升的权限下,攻击者 操控 LLM 泄露信息,包括其资产、已连接的服务以及功能。与传统恶意软件——其侦察通常在初始访问之前进行——不同,promptware 侦察发生在 初始访问和越狱成功之后。其有效性完全依赖于受害模型对上下文进行推理的能力,并将这种推理转为攻击者的优势。
4. 持久性
一次交互后即消失的瞬时攻击只是个恼人的小事;而持久性的攻击则会长期危害 LLM 应用。持久化机制包括:
- 将恶意内容嵌入 AI 代理的 long‑term memory(长期记忆)中。
- 对代理依赖的数据库进行投毒。
- 部署一种“蠕虫”,感染用户的邮件存档,使得每次 AI 对过去的邮件进行摘要时,恶意代码都会被重新执行。
5. Command‑and‑Control (C2)
利用已建立的持久性,攻击者可以在推理期间 动态获取来自互联网的指令。虽然这一步并非推进杀链的必需环节,但它将 promptware 从具有固定目标的静态威胁转变为 可控的特洛伊木马,其行为可以即时修改。
6. 横向移动
攻击从最初的受害者扩散到其他用户、设备或系统。示例:
- 一个被感染的电子邮件助理会将恶意载荷转发给所有联系人,像计算机病毒一样传播。
- 从被攻陷的日历邀请进行枢纽转移,进而控制智能家居设备或从网页浏览器中窃取数据。
使 AI 代理有用的互联互通同样为恶意软件传播提供了高速通道,导致级联故障。
7. 对目标的操作
最终阶段实现攻击者的实际目标,这远不止让聊天机器人说出冒犯性的话语。可能的目标包括:
- 数据外泄或金融欺诈(例如,操纵 AI 代理以 1 美元的价格出售汽车,或将加密货币转移到攻击者的钱包)。
- 通过受损的物联网或智能家居设备实现对物理世界的影响。
- 代码执行——具备编码能力的代理可能被诱导运行任意代码,从而让攻击者完全控制底层系统。
结果决定了 Promptware 所执行的恶意软件类型(信息窃取器、间谍软件、加密窃取器等)。
摘要
Promptware 杀链提供了一个全面的七阶段模型,用于理解恶意行为者如何武器化大型语言模型。识别每个阶段——从初始访问到对目标的操作——能够帮助安全从业者和政策制定者制定有针对性的防御措施,降低新兴的 AI 驱动威胁格局。
概览
Prompt injection attacks 已经演变成复杂的多阶段攻击活动,类似传统恶意软件的杀伤链。通过将基于提示的利用视为 “promptware”,我们可以映射其进程——从初始访问到最终影响——并制定在后期阶段中断链路的防御措施。
示例 1:邀请即一切
| 攻击链阶段 | 描述 |
|---|---|
| 初始访问 | 恶意提示被嵌入到 Google 日历邀请的标题 中。 |
| 持久性 | 由于提示存在于日历工件中,它会保留在 用户工作区的长期记忆 中。 |
| 横向移动 | 该提示指示 Google Assistant 启动 Zoom 应用程序。 |
| 影响 | 助手在不被察觉的情况下 实时直播 那些仅仅询问即将召开的会议的毫无防备的用户的视频。 |
| C2 / 侦察 | 在此攻击中 未展示。 |
关键要点: 将恶意提示嵌入日常协作工具中,攻击者可以获得持久的立足点,并在没有传统指挥控制(C2)基础设施的情况下实现隐蔽的数据外泄。
示例 2:Here Comes the AI Worm
| Kill‑Chain Stage | Description |
|---|---|
| Initial Access | 一个提示被注入到发送给受害者的 email 中。 |
| Persistence | 该提示持续存在于用户的 email workspace 的 long‑term memory 中。 |
| Privilege |