[Paper] 面向在线恶意软件检测的进程资源利用度指标
发布: (2026年1月15日 GMT+8 16:05)
6 min read
原文: arXiv
Source: arXiv - 2601.10164v1
概述
本文提出了一种 在线学习框架,通过监控进程的资源使用指标(CPU、内存、I/O 等)实时检测恶意软件。作者并未在大规模预标记数据集上训练静态模型,而是随着新执行数据的到来持续更新分类器,使其能够发现零日威胁并适应不断变化的恶意软件环境。
关键贡献
- 在线学习流水线,可摄取实时的进程级资源利用数据,并增量更新检测模型。
- 仅基于操作系统层面指标的特征集,避免使用重量级的插装或沙箱技术。
- 与传统批量训练分类器的实证对比,显示出对未知(零日)恶意软件的检测更优,以及在训练数据稀缺时的鲁棒性。
- 低开销部署演示,适用于云虚拟机、容器以及边缘/物联网设备。
方法论
- 数据收集 – 程序运行时,系统会定期(例如每秒)记录轻量级指标(每核 CPU % 使用率、常驻内存、磁盘读写、网络 I/O、上下文切换等)。
- 特征工程 – 将原始时间序列汇总为统计描述(均值、方差、最小/最大值、熵)和短期趋势,生成每个进程的固定长度向量。
- 在线学习算法 – 作者使用自适应算法,如 Hoeffding Adaptive Trees 和 Online Gradient Boosting,能够一次摄入一个样本并在不从头重新训练的情况下调整决策边界。
- 标签传播 – 当进程随后被安全分析员或离线扫描器确认是良性或恶意时,其特征向量会作为带标签的实例反馈给模型,触发增量更新。
- 评估设置 – 考虑了两种实验场景:
- 零日检测:模型在旧的恶意软件家族上训练,在全新样本上测试。
- 数据受限:训练时仅有少量带标签的实例,模拟早期爆发阶段的情况。
结果与发现
| 场景 | 批量模型(例如随机森林) | 在线模型(Hoeffding 树) |
|---|---|---|
| 零日检测(F1 分数) | 0.62 | 0.78 |
| 数据有限(10 个样本) | 0.48 | 0.71 |
| 每进程平均 CPU 开销 | ~3 % | ~1.5 % |
| 内存占用 | 150 MB | ≈ 45 MB |
- 在线方法在未见恶意软件的 F1 分数上比静态批量模型高出 15–30 %。
- 即使只有 10 个标记样本,它仍然有效,而批量模型则急剧下降。
- 资源消耗保持在生产服务器和边缘设备的限制范围内,证实了仅使用度量特征集的实用性。
实际意义
- 针对云租户的实时保护 – 云服务提供商可以将检测器嵌入到 hypervisor 或容器运行时中,以在可疑进程危及其他工作负载之前进行标记。
- 边缘/物联网安全 – 低功耗设备可以运行轻量级监控器,无需完整的沙箱环境,从而实现对恶意固件更新或受损服务的早期检测。
- 持续的安全姿态 – 安全运营团队可以将分析员验证的标签反馈到系统中,使每一次调查都成为模型改进的步骤——本质上是一个“自学习”入侵检测系统。
- 降低对特征码更新的依赖 – 由于模型基于行为学习,它能够捕捉到新型勒索软件、加密挖矿程序或规避传统杀毒特征码的无文件攻击。
限制与未来工作
- 特征范围 – 仅依赖资源度量可能会遗漏模仿良好使用模式的隐蔽恶意软件;结合系统调用或网络流数据可能提升覆盖率。
- 标签延迟 – 在线模型仅在进程被标记后才更新,这可能导致对快速传播威胁的适应出现延迟。探索半监督或无监督的漂移检测是下一步工作。
- 评估广度 – 实验在精选的 Windows 可执行文件数据集上进行;扩展到 Linux、Android 以及异构物联网固件将验证跨平台的鲁棒性。
底线:通过将静态、批量训练的分类器转变为 incremental, behavior‑driven detection engine,本研究为开发者和安全团队提供了一条可扩展的路径,以在云端和边缘环境中保持对快速演变的恶意软件的领先优势——在这些环境中,速度和资源效率至关重要。
作者
- Themistoklis Diamantopoulos
- Dimosthenis Natsos
- Andreas L. Symeonidis
论文信息
- arXiv ID: 2601.10164v1
- 分类: cs.SE
- 发表时间: 2026年1月15日
- PDF: 下载 PDF