[Paper] 面向在线恶意软件检测的进程资源利用度指标

发布: (2026年1月15日 GMT+8 16:05)
6 min read
原文: arXiv

Source: arXiv - 2601.10164v1

概述

本文提出了一种 在线学习框架,通过监控进程的资源使用指标(CPU、内存、I/O 等)实时检测恶意软件。作者并未在大规模预标记数据集上训练静态模型,而是随着新执行数据的到来持续更新分类器,使其能够发现零日威胁并适应不断变化的恶意软件环境。

关键贡献

  • 在线学习流水线,可摄取实时的进程级资源利用数据,并增量更新检测模型。
  • 仅基于操作系统层面指标的特征集,避免使用重量级的插装或沙箱技术。
  • 与传统批量训练分类器的实证对比,显示出对未知(零日)恶意软件的检测更优,以及在训练数据稀缺时的鲁棒性。
  • 低开销部署演示,适用于云虚拟机、容器以及边缘/物联网设备。

方法论

  1. 数据收集 – 程序运行时,系统会定期(例如每秒)记录轻量级指标(每核 CPU % 使用率、常驻内存、磁盘读写、网络 I/O、上下文切换等)。
  2. 特征工程 – 将原始时间序列汇总为统计描述(均值、方差、最小/最大值、熵)和短期趋势,生成每个进程的固定长度向量。
  3. 在线学习算法 – 作者使用自适应算法,如 Hoeffding Adaptive TreesOnline Gradient Boosting,能够一次摄入一个样本并在不从头重新训练的情况下调整决策边界。
  4. 标签传播 – 当进程随后被安全分析员或离线扫描器确认是良性或恶意时,其特征向量会作为带标签的实例反馈给模型,触发增量更新。
  5. 评估设置 – 考虑了两种实验场景:
    • 零日检测:模型在旧的恶意软件家族上训练,在全新样本上测试。
    • 数据受限:训练时仅有少量带标签的实例,模拟早期爆发阶段的情况。

结果与发现

场景批量模型(例如随机森林)在线模型(Hoeffding 树)
零日检测(F1 分数)0.620.78
数据有限(10 个样本)0.480.71
每进程平均 CPU 开销~3 %~1.5 %
内存占用150 MB≈ 45 MB
  • 在线方法在未见恶意软件的 F1 分数上比静态批量模型高出 15–30 %
  • 即使只有 10 个标记样本,它仍然有效,而批量模型则急剧下降。
  • 资源消耗保持在生产服务器和边缘设备的限制范围内,证实了仅使用度量特征集的实用性

实际意义

  • 针对云租户的实时保护 – 云服务提供商可以将检测器嵌入到 hypervisor 或容器运行时中,以在可疑进程危及其他工作负载之前进行标记。
  • 边缘/物联网安全 – 低功耗设备可以运行轻量级监控器,无需完整的沙箱环境,从而实现对恶意固件更新或受损服务的早期检测。
  • 持续的安全姿态 – 安全运营团队可以将分析员验证的标签反馈到系统中,使每一次调查都成为模型改进的步骤——本质上是一个“自学习”入侵检测系统。
  • 降低对特征码更新的依赖 – 由于模型基于行为学习,它能够捕捉到新型勒索软件、加密挖矿程序或规避传统杀毒特征码的无文件攻击。

限制与未来工作

  • 特征范围 – 仅依赖资源度量可能会遗漏模仿良好使用模式的隐蔽恶意软件;结合系统调用或网络流数据可能提升覆盖率。
  • 标签延迟 – 在线模型仅在进程被标记后才更新,这可能导致对快速传播威胁的适应出现延迟。探索半监督或无监督的漂移检测是下一步工作。
  • 评估广度 – 实验在精选的 Windows 可执行文件数据集上进行;扩展到 Linux、Android 以及异构物联网固件将验证跨平台的鲁棒性。

底线:通过将静态、批量训练的分类器转变为 incremental, behavior‑driven detection engine,本研究为开发者和安全团队提供了一条可扩展的路径,以在云端和边缘环境中保持对快速演变的恶意软件的领先优势——在这些环境中,速度和资源效率至关重要。

作者

  • Themistoklis Diamantopoulos
  • Dimosthenis Natsos
  • Andreas L. Symeonidis

论文信息

  • arXiv ID: 2601.10164v1
  • 分类: cs.SE
  • 发表时间: 2026年1月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »