[Paper] 恶意ML模型检测通过学习动态行为
发布: (2026年4月21日 GMT+8 21:12)
7 分钟阅读
原文: arXiv
Source: arXiv - 2604.19438v1
概述
预训练机器学习模型(PTM)通过模型中心(如 Hugging Face)广泛共享,通常以序列化对象的形式提供(例如 Python pickle)。虽然这种便利加速了开发,但也暴露了供应链攻击面:恶意模型在加载的瞬间即可执行任意代码。现有扫描工具(例如 PickleScan)侧重于静态签名或启发式规则,忽略模型在运行时的实际行为,导致漏报和误报。本文提出了 DynaHug,一种检测框架,学习良性 PTM 的 动态 执行模式,并将偏离这些模式的行为标记为潜在恶意。
关键贡献
- 基于动态行为的检测: 首个系统对 PTM 的运行时特征进行建模,而不是仅依赖静态检查。
- 单类 SVM 分类器: 在良性执行轨迹上训练 OCSVM,实现对分布外(即恶意)行为的检测,无需标记的恶意样本。
- 大规模实证评估: 在来自 Hugging Face 和 MalHug 仓库的 >25 k 模型(包括良性和恶意)上进行测试。
- 性能提升: 与最先进的静态、动态和基于 LLM 的检测器相比,F1‑score 提升最高 44 %。
- 消融研究: 证明每个设计选择——动态追踪、OCSVM 和模型家族聚类——都对整体效果有可衡量的贡献。
方法论
- 数据收集 – 收集任务特定的 PTM(例如文本分类、图像字幕)。对每个模型,在一次典型推理运行期间记录 动态跟踪:系统调用、文件访问、网络活动、CPU/内存使用情况以及 Python 级别的 API 调用。
- 特征工程 – 将原始跟踪转换为固定长度的特征向量(例如系统调用频率直方图、时序统计、沙箱退出码)。
- 模型训练 – 仅使用良性跟踪训练 单类支持向量机 (One‑Class Support Vector Machine, OCSVM),学习正常行为的边界。
- 聚类 – 按任务/领域对模型进行分组,并为每个簇训练单独的 OCSVM,以降低异构工作负载带来的噪声。
- 检测 – 当加载新的 PTM 时,在轻量沙箱中运行相同的跟踪管道;得到的特征向量送入相应的 OCSVM。如果样本位于学习边界之外,则标记为可疑。
- 评估 – 将 DynaHug 的预测结果与真实标签(良性 vs 恶意)以及基线方法(PickleScan、静态代码分析器、基于 LLM 的分类器)进行比较。
结果与发现
| 指标 | DynaHug | 最佳基线 |
|---|---|---|
| F1‑得分 | 0.92(提升最高 44 %) | 0.64 – 0.71 |
| 精确率 | 0.90 | 0.58 – 0.68 |
| 召回率 | 0.94 | 0.61 – 0.73 |
| 误报率 | 3 % | 12 % – 18 % |
- 跨任务的鲁棒性: 为每个簇单独使用 OCSVM,即使模型差异巨大(例如 NLP 与 CV),也能保持检测精度。
- 低开销: 动态追踪平均每次推理额外增加约 150 ms,适合作为部署前的安全检查。
- 消融分析: 去除聚类会使 F1 降低约 7 %;将 OCSVM 替换为二分类器(在良性和恶意数据上均有训练)会使召回率下降约 10 %,验证了单类学习的价值。
实际影响
- Supply‑chain hardening: 开发者可以将 DynaHug 集成到 CI/CD 流水线中用于模型摄取,自动审查第三方 PTM(预训练模型),以防它们进入生产环境。
- Sandbox‑as‑a‑service: 云服务提供商可以将 DynaHug 作为托管 API 暴露,提供“模型安全评分”,并与模型中心的模型元数据一起展示。
- Compliance & Auditing: 受安全标准(如 ISO 27001、NIST 800‑53)约束的组织可以使用动态行为报告,作为模型采购尽职调查的证据。
- Developer ergonomics: 由于 DynaHug 基于通用运行时追踪工作,无需修改模型代码或格式——只需在受控环境中进行一次短暂执行。
限制与未来工作
- 异构环境的覆盖范围: 当前的追踪设置针对典型的基于 Python 的推理;在其他运行时(例如 TensorFlow C++、ONNX)中运行的模型需要单独的仪表化。
- 规避潜力: 攻击者可能会制作一种模型,在短暂的沙箱运行期间模拟良性轨迹,但随后激活恶意负载;未来工作将探索更长时段或多阶段的监控。
- 恶意样本标签稀缺: 虽然 OCSVM 减少了对大量恶意软件示例的需求,但更丰富的恶意数据集可以实现结合单类和监督信号的混合检测器。
- 聚类的可扩展性: 随着任务领域数量的增加,维护每个聚类的分类器可能变得繁琐;自动聚类和模型类型推断已列入后续研究计划。
作者
- Sarang Nambiar
- Dhruv Pradhan
- Ezekiel Soremekun
论文信息
- arXiv ID: 2604.19438v1
- 分类: cs.CR, cs.SE
- 出版日期: 2026年4月21日
- PDF: 下载 PDF