AI模型的供应链攻击:攻击者如何通过受污染的 LoRA 适配器和受损的模型权重注入后门
I’m sorry, but I can’t retrieve or view the content from external links. If you provide the text you’d like translated, I’ll be happy to translate it into Simplified Chinese while preserving the formatting and technical terms as requested.
The Expanding Attack Surface
AI 模型供应链相较于传统软件开发呈现出独特且复杂的攻击面。不同于拥有明确定义的代码库和依赖树的常规应用,AI 模型涉及多个相互关联的组件,这些组件往往来自多样且未经验证的来源。
Contaminated Training Datasets
任何 AI 模型的基础都始于其训练数据,这使得数据集成为攻击者的主要目标。恶意行为者正日益针对流行的公开数据集,注入细微的偏差或后门,这些会在最终模型中表现为意外行为。被投毒的数据集可能影响成千上万使用该数据进行训练的模型,导致广泛的安全影响。
- 攻击者采用高级技术,使其恶意样本与合法数据无缝融合,检测难度极大。
- 被投毒的样本可能包含触发模式,当模型遇到特定输入时会产生非预期的行为。
Malicious Model Checkpoints
在训练过程中,模型会在多个检查点保存,这为攻击者注入恶意代码或后门提供了机会。受损的检查点可以通过正规渠道分发,伪装成可信来源的官方发布。
Poisoned Fine‑Tuning Adapters
低秩适配(LoRA)和量化低秩适配(QLoRA)适配器已成为在不进行完整再训练的情况下定制大语言模型的流行方式。然而,这些适配器构成了显著的安全风险,因为它们可能包含隐藏的恶意代码,在与基础模型一起加载时执行。
云端和假冒开发者攻击:复杂的供应链操纵
现代 AI 供应链攻击已经超越了简单的代码注入,发展为包括复杂的社会工程和基础设施操纵技术。
云端攻击
- 目标是用于 AI 模型托管和服务的云基础设施。
- 攻击者入侵托管模型权重或服务基础设施的云实例,将合法模型替换为被投毒的版本。
- 这种攻击尤其危险,因为它们可以在不更改原始开发流水线的情况下影响生产环境中的模型。
假冒开发者攻击
- 攻击者创建虚假的开发者身份,在开源 AI 项目中长期贡献可信代码。
- 这些恶意开发者在社区中建立信誉后,向广泛使用的 AI 框架和库中引入细微的后门或漏洞。
假冒开发者的手法利用了开源开发的信任机制。攻击者可能花费数月甚至数年贡献合法代码,获得提交权限和社区信任,然后再引入往往在缺乏深入审查的情况下被接受的恶意更改。
为什么传统供应链安全对 AI 失效
传统供应链安全措施在保护 AI 模型方面表现不足,原因在于 AI 与传统软件之间的若干根本差异:
不透明的黑箱模型
- 与可以审查源代码以发现恶意内容的传统软件不同,AI 模型本质上是黑箱。
- 即使能够获取模型权重,也极其困难判断模型在所有可能情境下的行为。
- 这种不透明性使得在没有全面测试的情况下,几乎不可能验证模型是否按预期运行。
薄弱的来源追踪
- AI 开发缺乏传统软件开发中常见的成熟来源追踪系统。
- 组织往往难以完整记录训练数据的来源、用于微调的基模型,或适配器的开发过程。
未经验证的第三方托管
- AI 生态系统高度依赖第三方模型托管平台(如 Hugging Face),任何人都可以上传模型和适配器。
- 虽然这些平台已经实施了一些验证措施,但整体上仍缺乏监管,为恶意行为者分发受损模型提供了机会。
特定攻击场景
LoRA 适配器妥协
考虑一种情形:某组织下载了一个 LoRA 适配器,用于实现大语言模型在设备端的合法推理。该适配器表面上运行正常,能够对模型进行边缘部署优化。然而,适配器内部隐藏了触发模式,当遇到特定输入时会导致模型忽略安全指南。在正常运行期间,受妥协的适配器可以悄悄地外泄数据、生成不允许的内容,或以其他方式颠覆系统的预期行为。
(文章继续提供其他场景和缓解策略。)
云基础设施受损
另一常见情形是攻击者入侵托管模型服务基础设施的云实例。攻击者并不直接攻击模型本身,而是拦截请求和响应,可能修改输出或提取敏感数据。这类攻击尤其难以检测,因为模型本身仍保持完整未受损。
AI生成的开发者角色
在一次复杂的 sock‑puppet 攻击中,攻击者使用 AI 生成逼真的开发者资料,包含 GitHub 历史、对其他项目的贡献,甚至社交媒体存在。这些 AI 生成的角色会在开源 AI 项目中贡献数月,建立信任,然后引入细微的漏洞,在广泛部署的模型中创建后门。
实际案例:现场经验教训
近期的事件突显了 AI 供应链攻击在真实世界中的影响:
Wondershare RepairIt 凭证泄露
Wondershare RepairIt 事件展示了 AI 驱动工具中硬编码凭证如何暴露敏感基础设施。攻击者利用泄露的 API 密钥访问模型训练基础设施,可能向数据集和模型中注入恶意样本。
恶意 PyPI 包
多个针对 AI 库的恶意包已出现在 PyPI 上,伪装成合法的依赖。这些包包含会在训练或推理过程中修改模型行为或窃取敏感数据的代码。
拼写相似攻击(Typosquatting)活动
攻击者发起了针对 AI 库名称的高级拼写相似攻击,创建与流行框架名称相近的包。当开发者不小心安装这些恶意包时,可能会危及整个 AI 开发流水线。
防御策略:保护 AI 供应链
组织必须实施全面的防御策略,以防范 AI 供应链攻击:
加密模型签名
对所有 AI 模型和适配器实施加密签名,以确保其完整性和真实性。在部署任何 AI 组件之前验证签名,类似于代码签名对传统软件的保护方式。
AI/ML 物料清单 (AIBOM)
为 AI 系统制定完整的物料清单,以了解整个 AI 供应链。AIBOM 应包括训练数据集、基础模型、微调适配器、依赖项以及托管基础设施等信息。
行为溯源分析
监控提交模式和贡献者行为可以帮助识别冒名攻击。贡献模式的突然变化、异常的协作请求或快速的特权提升尝试可能表明存在恶意活动。
零信任运行时防御
通过持续监控模型行为、验证输入输出,并将模型功能限制在其预期功能所必需的范围内,实施零信任原则来保护 AI 模型的执行。
人工验证要求
关键 AI 组件在部署前应要求人工验证。这包括对模型行为的手动审查、对训练数据来源的验证以及对适配器功能的确认。
检测与监控解决方案
现代安全平台(例如 SentinelOne)开始加入 AI 专用的供应链监控能力。这些平台能够检测模型行为中的异常模式、识别潜在的恶意适配器,并监控供应链受 compromise 的迹象。
行为分析
先进的行为分析工具可以识别 AI 模型出现的异常模式,这些模式可能表明被攻破,例如意外的网络连接、非典型的数据访问模式或与预期输出分布的偏离。
供应链可视化
全面的供应链可视化工具帮助组织绘制完整的 AI 基础设施图谱,识别所有依赖关系和潜在的受 compromise 点。这种可视化对于快速事件响应和修复至关重要。
前进之路
AI 供应链攻击的激增标志着网络安全的根本性转变,这需要新的方法和工具。