[Paper] 恶意ML模型检测通过学习动态行为

发布: (2026年4月21日 GMT+8 21:12)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.19438v1

概述

预训练机器学习模型(PTM)通过模型中心(如 Hugging Face)广泛共享,通常以序列化对象的形式提供(例如 Python pickle)。虽然这种便利加速了开发,但也暴露了供应链攻击面:恶意模型在加载的瞬间即可执行任意代码。现有扫描工具(例如 PickleScan)侧重于静态签名或启发式规则,忽略模型在运行时的实际行为,导致漏报和误报。本文提出了 DynaHug,一种检测框架,学习良性 PTM 的 动态 执行模式,并将偏离这些模式的行为标记为潜在恶意。

关键贡献

  • 基于动态行为的检测: 首个系统对 PTM 的运行时特征进行建模,而不是仅依赖静态检查。
  • 单类 SVM 分类器: 在良性执行轨迹上训练 OCSVM,实现对分布外(即恶意)行为的检测,无需标记的恶意样本。
  • 大规模实证评估: 在来自 Hugging Face 和 MalHug 仓库的 >25 k 模型(包括良性和恶意)上进行测试。
  • 性能提升: 与最先进的静态、动态和基于 LLM 的检测器相比,F1‑score 提升最高 44 %
  • 消融研究: 证明每个设计选择——动态追踪、OCSVM 和模型家族聚类——都对整体效果有可衡量的贡献。

方法论

  1. 数据收集 – 收集任务特定的 PTM(例如文本分类、图像字幕)。对每个模型,在一次典型推理运行期间记录 动态跟踪:系统调用、文件访问、网络活动、CPU/内存使用情况以及 Python 级别的 API 调用。
  2. 特征工程 – 将原始跟踪转换为固定长度的特征向量(例如系统调用频率直方图、时序统计、沙箱退出码)。
  3. 模型训练 – 仅使用良性跟踪训练 单类支持向量机 (One‑Class Support Vector Machine, OCSVM),学习正常行为的边界。
  4. 聚类 – 按任务/领域对模型进行分组,并为每个簇训练单独的 OCSVM,以降低异构工作负载带来的噪声。
  5. 检测 – 当加载新的 PTM 时,在轻量沙箱中运行相同的跟踪管道;得到的特征向量送入相应的 OCSVM。如果样本位于学习边界之外,则标记为可疑。
  6. 评估 – 将 DynaHug 的预测结果与真实标签(良性 vs 恶意)以及基线方法(PickleScan、静态代码分析器、基于 LLM 的分类器)进行比较。

结果与发现

指标DynaHug最佳基线
F1‑得分0.92(提升最高 44 %)0.64 – 0.71
精确率0.900.58 – 0.68
召回率0.940.61 – 0.73
误报率3 %12 % – 18 %
  • 跨任务的鲁棒性: 为每个簇单独使用 OCSVM,即使模型差异巨大(例如 NLP 与 CV),也能保持检测精度。
  • 低开销: 动态追踪平均每次推理额外增加约 150 ms,适合作为部署前的安全检查。
  • 消融分析: 去除聚类会使 F1 降低约 7 %;将 OCSVM 替换为二分类器(在良性和恶意数据上均有训练)会使召回率下降约 10 %,验证了单类学习的价值。

实际影响

  • Supply‑chain hardening: 开发者可以将 DynaHug 集成到 CI/CD 流水线中用于模型摄取,自动审查第三方 PTM(预训练模型),以防它们进入生产环境。
  • Sandbox‑as‑a‑service: 云服务提供商可以将 DynaHug 作为托管 API 暴露,提供“模型安全评分”,并与模型中心的模型元数据一起展示。
  • Compliance & Auditing: 受安全标准(如 ISO 27001、NIST 800‑53)约束的组织可以使用动态行为报告,作为模型采购尽职调查的证据。
  • Developer ergonomics: 由于 DynaHug 基于通用运行时追踪工作,无需修改模型代码或格式——只需在受控环境中进行一次短暂执行。

限制与未来工作

  • 异构环境的覆盖范围: 当前的追踪设置针对典型的基于 Python 的推理;在其他运行时(例如 TensorFlow C++、ONNX)中运行的模型需要单独的仪表化。
  • 规避潜力: 攻击者可能会制作一种模型,在短暂的沙箱运行期间模拟良性轨迹,但随后激活恶意负载;未来工作将探索更长时段或多阶段的监控。
  • 恶意样本标签稀缺: 虽然 OCSVM 减少了对大量恶意软件示例的需求,但更丰富的恶意数据集可以实现结合单类和监督信号的混合检测器。
  • 聚类的可扩展性: 随着任务领域数量的增加,维护每个聚类的分类器可能变得繁琐;自动聚类和模型类型推断已列入后续研究计划。

作者

  • Sarang Nambiar
  • Dhruv Pradhan
  • Ezekiel Soremekun

论文信息

  • arXiv ID: 2604.19438v1
  • 分类: cs.CR, cs.SE
  • 出版日期: 2026年4月21日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »