[Paper] 恶意ML模型检测通过学习动态行为

发布: 2天前 (2026年4月21日 GMT+8 21:12)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.19438v1

概述

预训练机器学习模型（PTM）通过模型中心（如 Hugging Face）广泛共享，通常以序列化对象的形式提供（例如 Python pickle）。虽然这种便利加速了开发，但也暴露了供应链攻击面：恶意模型在加载的瞬间即可执行任意代码。现有扫描工具（例如 PickleScan）侧重于静态签名或启发式规则，忽略模型在运行时的实际行为，导致漏报和误报。本文提出了 DynaHug，一种检测框架，学习良性 PTM 的动态执行模式，并将偏离这些模式的行为标记为潜在恶意。

关键贡献

基于动态行为的检测： 首个系统对 PTM 的运行时特征进行建模，而不是仅依赖静态检查。
单类 SVM 分类器： 在良性执行轨迹上训练 OCSVM，实现对分布外（即恶意）行为的检测，无需标记的恶意样本。
大规模实证评估： 在来自 Hugging Face 和 MalHug 仓库的 >25 k 模型（包括良性和恶意）上进行测试。
性能提升： 与最先进的静态、动态和基于 LLM 的检测器相比，F1‑score 提升最高 44 %。
消融研究： 证明每个设计选择——动态追踪、OCSVM 和模型家族聚类——都对整体效果有可衡量的贡献。

方法论

数据收集 – 收集任务特定的 PTM（例如文本分类、图像字幕）。对每个模型，在一次典型推理运行期间记录 动态跟踪：系统调用、文件访问、网络活动、CPU/内存使用情况以及 Python 级别的 API 调用。
特征工程 – 将原始跟踪转换为固定长度的特征向量（例如系统调用频率直方图、时序统计、沙箱退出码）。
模型训练 – 仅使用良性跟踪训练 单类支持向量机 (One‑Class Support Vector Machine, OCSVM)，学习正常行为的边界。
聚类 – 按任务/领域对模型进行分组，并为每个簇训练单独的 OCSVM，以降低异构工作负载带来的噪声。
检测 – 当加载新的 PTM 时，在轻量沙箱中运行相同的跟踪管道；得到的特征向量送入相应的 OCSVM。如果样本位于学习边界之外，则标记为可疑。
评估 – 将 DynaHug 的预测结果与真实标签（良性 vs 恶意）以及基线方法（PickleScan、静态代码分析器、基于 LLM 的分类器）进行比较。

结果与发现

指标	DynaHug	最佳基线
F1‑得分	0.92（提升最高 44 %）	0.64 – 0.71
精确率	0.90	0.58 – 0.68
召回率	0.94	0.61 – 0.73
误报率	3 %	12 % – 18 %

跨任务的鲁棒性： 为每个簇单独使用 OCSVM，即使模型差异巨大（例如 NLP 与 CV），也能保持检测精度。
低开销： 动态追踪平均每次推理额外增加约 150 ms，适合作为部署前的安全检查。
消融分析： 去除聚类会使 F1 降低约 7 %；将 OCSVM 替换为二分类器（在良性和恶意数据上均有训练）会使召回率下降约 10 %，验证了单类学习的价值。

实际影响

Supply‑chain hardening: 开发者可以将 DynaHug 集成到 CI/CD 流水线中用于模型摄取，自动审查第三方 PTM（预训练模型），以防它们进入生产环境。
Sandbox‑as‑a‑service: 云服务提供商可以将 DynaHug 作为托管 API 暴露，提供“模型安全评分”，并与模型中心的模型元数据一起展示。
Compliance & Auditing: 受安全标准（如 ISO 27001、NIST 800‑53）约束的组织可以使用动态行为报告，作为模型采购尽职调查的证据。
Developer ergonomics: 由于 DynaHug 基于通用运行时追踪工作，无需修改模型代码或格式——只需在受控环境中进行一次短暂执行。

限制与未来工作

异构环境的覆盖范围： 当前的追踪设置针对典型的基于 Python 的推理；在其他运行时（例如 TensorFlow C++、ONNX）中运行的模型需要单独的仪表化。
规避潜力： 攻击者可能会制作一种模型，在短暂的沙箱运行期间模拟良性轨迹，但随后激活恶意负载；未来工作将探索更长时段或多阶段的监控。
恶意样本标签稀缺： 虽然 OCSVM 减少了对大量恶意软件示例的需求，但更丰富的恶意数据集可以实现结合单类和监督信号的混合检测器。
聚类的可扩展性： 随着任务领域数量的增加，维护每个聚类的分类器可能变得繁琐；自动聚类和模型类型推断已列入后续研究计划。

作者

Sarang Nambiar
Dhruv Pradhan
Ezekiel Soremekun

论文信息

arXiv ID: 2604.19438v1
分类: cs.CR, cs.SE
出版日期: 2026年4月21日
PDF: 下载 PDF

[Paper] 恶意ML模型检测通过学习动态行为

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 自主 LLM 生成的学生练习反馈（入门软件工程课程）

[Paper] Autark：用于原型制作城市可视分析系统的 Serverless Toolkit

[Paper] 通过 ROC 曲线下面积评估软件缺陷预测模型可能产生误导

[Paper] DeepParse：混合日志解析与 LLM 合成的正则掩码