[Paper] 面向在线恶意软件检测的进程资源利用度指标

发布: 3周前 (2026年1月15日 GMT+8 16:05)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.10164v1

概述

本文提出了一种 在线学习框架，通过监控进程的资源使用指标（CPU、内存、I/O 等）实时检测恶意软件。作者并未在大规模预标记数据集上训练静态模型，而是随着新执行数据的到来持续更新分类器，使其能够发现零日威胁并适应不断变化的恶意软件环境。

关键贡献

在线学习流水线，可摄取实时的进程级资源利用数据，并增量更新检测模型。
仅基于操作系统层面指标的特征集，避免使用重量级的插装或沙箱技术。
与传统批量训练分类器的实证对比，显示出对未知（零日）恶意软件的检测更优，以及在训练数据稀缺时的鲁棒性。
低开销部署演示，适用于云虚拟机、容器以及边缘/物联网设备。

方法论

数据收集 – 程序运行时，系统会定期（例如每秒）记录轻量级指标（每核 CPU % 使用率、常驻内存、磁盘读写、网络 I/O、上下文切换等）。
特征工程 – 将原始时间序列汇总为统计描述（均值、方差、最小/最大值、熵）和短期趋势，生成每个进程的固定长度向量。
在线学习算法 – 作者使用自适应算法，如 Hoeffding Adaptive Trees 和 Online Gradient Boosting，能够一次摄入一个样本并在不从头重新训练的情况下调整决策边界。
标签传播 – 当进程随后被安全分析员或离线扫描器确认是良性或恶意时，其特征向量会作为带标签的实例反馈给模型，触发增量更新。
评估设置 – 考虑了两种实验场景：
- 零日检测：模型在旧的恶意软件家族上训练，在全新样本上测试。
- 数据受限：训练时仅有少量带标签的实例，模拟早期爆发阶段的情况。

结果与发现

场景	批量模型（例如随机森林）	在线模型（Hoeffding 树）
零日检测（F1 分数）	0.62	0.78
数据有限（10 个样本）	0.48	0.71
每进程平均 CPU 开销	~3 %	~1.5 %
内存占用	150 MB	≈ 45 MB

在线方法在未见恶意软件的 F1 分数上比静态批量模型高出 15–30 %。
即使只有 10 个标记样本，它仍然有效，而批量模型则急剧下降。
资源消耗保持在生产服务器和边缘设备的限制范围内，证实了仅使用度量特征集的实用性。

实际意义

针对云租户的实时保护 – 云服务提供商可以将检测器嵌入到 hypervisor 或容器运行时中，以在可疑进程危及其他工作负载之前进行标记。
边缘/物联网安全 – 低功耗设备可以运行轻量级监控器，无需完整的沙箱环境，从而实现对恶意固件更新或受损服务的早期检测。
持续的安全姿态 – 安全运营团队可以将分析员验证的标签反馈到系统中，使每一次调查都成为模型改进的步骤——本质上是一个“自学习”入侵检测系统。
降低对特征码更新的依赖 – 由于模型基于行为学习，它能够捕捉到新型勒索软件、加密挖矿程序或规避传统杀毒特征码的无文件攻击。

限制与未来工作

特征范围 – 仅依赖资源度量可能会遗漏模仿良好使用模式的隐蔽恶意软件；结合系统调用或网络流数据可能提升覆盖率。
标签延迟 – 在线模型仅在进程被标记后才更新，这可能导致对快速传播威胁的适应出现延迟。探索半监督或无监督的漂移检测是下一步工作。
评估广度 – 实验在精选的 Windows 可执行文件数据集上进行；扩展到 Linux、Android 以及异构物联网固件将验证跨平台的鲁棒性。

底线：通过将静态、批量训练的分类器转变为 incremental, behavior‑driven detection engine，本研究为开发者和安全团队提供了一条可扩展的路径，以在云端和边缘环境中保持对快速演变的恶意软件的领先优势——在这些环境中，速度和资源效率至关重要。

作者

Themistoklis Diamantopoulos
Dimosthenis Natsos
Andreas L. Symeonidis

论文信息

arXiv ID: 2601.10164v1
分类: cs.SE
发表时间: 2026年1月15日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 将形式化方法工具应用于电子战代码库（经验报告）

虽然使用 formal methods 相较于 unit testing 有优势，但其陡峭的学习曲线可能令开发者望而却步，并且可能成为广泛采用的主要障碍。

[Paper] 实用指南：建立技术债务管理

本白皮书概述了“technical debt”主题，并提出了一种在团队中管理 technical debt 的方法。本白皮书基于…

[论文] RITA：一种用于从在线用户反馈中自动化需求分类与规范的工具

背景与动机。在线用户反馈是需求工程的宝贵资源，但其数量庞大且噪声较多，使得分析变得困难。现有的…

[Paper] GitHub Actions 工作流中的自动化与复用实践：实践者视角

GitHub 原生支持通过 GitHub Actions 实现工作流自动化。然而，工作流的维护常常被软件开发者视为一种负担，他们经常……