[Paper] RPG-AE:神经符号图自编码器与稀有模式挖掘用于基于溯源的异常检测

发布: (2026年2月3日 GMT+8 08:02)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.02929v1

Overview

本文介绍了 RPG‑AE,一种混合“神经‑符号”系统,将深度图表示学习与经典稀有模式挖掘相结合,用于在系统级溯源日志中发现高级持续性威胁(APTs)。通过将进程交互转化为图结构,使用图自编码器(GAE)学习其正常结构,然后利用不常见的行为模式放大可疑信号,作者在 DARPA Transparent Computing 基准上实现了最先进的检测效果。

关键贡献

  • 神经符号架构:将图自编码器(深度学习)与稀有模式挖掘模块(符号 AI)结合在单一流水线中。
  • 基于 k‑NN 的来源图构建:使用特征相似度构建进程行为图,保留时间和关系上下文。
  • 通过重构误差 + 稀有性提升的异常评分:检测偏离学习到的正常图的情况,并对出现罕见共现的进程提升评分。
  • 全面评估:在 DARPA TC 数据集上显示相较于纯 GAE 基线的显著改进,并在多个无监督检测器的集成中取得竞争性结果。
  • 可解释性钩子:稀有模式组件提供人类可读的签名,解释为何进程被标记,弥合深度模型的“黑箱”鸿沟。

方法论

  1. Data preprocessing – System‑level provenance events (e.g., file reads, network sockets) are encoded into a feature vector per process (CPU usage, I/O counts, syscall frequencies, etc.).
    数据预处理 – 系统级的来源事件(例如文件读取、网络套接字)被编码为每个进程的特征向量(CPU 使用率、I/O 计数、系统调用频率等)。

  2. Graph construction – For each time window, a k‑Nearest Neighbors (k‑NN) graph is built where nodes are processes and edges connect the k most similar processes based on the feature vectors. This captures “who behaves like whom.”
    图构建 – 对于每个时间窗口,构建一个 k 最近邻 (k‑NN) 图,节点是进程,边连接基于特征向量最相似的 k 个进程。此过程捕获“谁的行为像谁”。

  3. Graph Autoencoder (GAE) – A two‑layer Graph Convolutional Network (GCN) encoder compresses each node’s neighborhood into a low‑dimensional embedding; a decoder attempts to reconstruct the adjacency matrix. The reconstruction loss measures how well the model captures the normal relational structure.
    图自编码器 (GAE) – 一个两层的图卷积网络 (GCN) 编码器将每个节点的邻域压缩为低维嵌入;解码器尝试重建邻接矩阵。重建损失衡量模型对 正常 关系结构的捕获程度。

  4. Rare‑pattern mining – Independently, the system mines infrequent sub‑graphs (e.g., a specific combination of file accesses and network calls that appears in < 1 % of windows) using a classic frequent‑itemset algorithm adapted for graphs.
    稀有模式挖掘 – 系统独立地使用一种针对图的经典频繁项集算法挖掘 不常见子图(例如在 < 1 % 窗口中出现的特定文件访问和网络调用组合)。

  5. Anomaly scoring – For a given process, the final score = GAE reconstruction error + rarity boost (if the process participates in a mined rare pattern). The boost is calibrated so that truly anomalous rare patterns outweigh benign noise.
    异常评分 – 对于给定进程,最终得分 = GAE 重建误差 + 稀有度提升(如果该进程参与了挖掘出的稀有模式)。该提升经过校准,使真正异常的稀有模式能够压倒良性噪声。

  6. Ranking & alerting – Processes are ranked by their composite scores; top‑k are presented to analysts.
    排序与告警 – 根据综合得分对进程进行排序;前 k 名呈现给分析员。

结果与发现

指标(数值越高越好)仅 GAERPG‑AE(GAE + 稀有提升)最佳已有无监督方法
AUROC0.840.920.88
AUPRC0.310.480.42
Mean Rank of APT events572235
  • 稀有模式提升 将真实 APT 进程的排名提升约 60 %,相对于基线 GAE。
  • 单一的 RPG‑AE 模型的表现匹配或超越了结合 3–4 个独立检测器的集成方法,同时所需的工程工作量要少得多。
  • 定性分析表明,许多高分警报对应于已知的 APT 战术(例如,通过不常见的 IPC 通道进行横向移动),验证了可解释性优势。

实际影响

  • Plug‑and‑play anomaly detector: 安全团队可以将 RPG‑AE 作为即插即用模块部署在现有的来源收集管道上(例如 Sysdig、Falco 或操作系统级审计日志),无需训练多个专用模型。
  • Reduced alert fatigue: 通过呈现 rarest 可疑模式,系统优先处理更可能是真实威胁的警报,帮助 SOC 分析员专注于高价值的调查。
  • Explainable alerts: 稀有模式组件提供简明的“why”(例如,“进程 X 执行了 DNS 查询 + 特权文件写入的罕见组合”),可直接用于工单系统或自动化响应剧本。
  • Scalable to large environments: k‑NN 图在每个滑动窗口内构建,GAE 随节点数量线性扩展;通过调整支持阈值可以限制稀有模式挖掘,使该方法适用于云原生微服务集群。
  • Foundation for downstream defenses: 学习得到的嵌入可复用于威胁狩猎、横向移动检测,或输入到基于强化学习的响应代理中。

限制与未来工作

  • 依赖于来源数据的质量 – 缺失或噪声日志会削弱图结构和稀有性统计。
  • 静态稀有阈值 – 当前的挖掘步骤使用固定的支持阈值;自适应阈值可以更好地应对不断演变的基线。
  • 时间粒度 – 该方法独立处理窗口,可能会遗漏跨窗口的攻击链;引入循环或时序 GNN 是一个有前景的方向。
  • 评估仅限于 DARPA TC – 虽然该基准严格,但在真实企业数据集(如 Microsoft Azure、Google Cloud)上进行更广泛的验证将加强对通用性的主张。

底线:RPG‑AE 证明,将深度图学习与经典模式挖掘相结合,可提供更准确、可解释且易于运维的基于来源的 APT 检测方案——开发者和安全工程师今天即可开始尝试这种方法。

作者

  • Asif Tauhid
  • Sidahmed Benabderrahmane
  • Mohamad Altrabulsi
  • Ahamed Foisal
  • Talal Rahwan

论文信息

  • arXiv ID: 2602.02929v1
  • 分类: cs.LG, cs.AI, cs.CR, cs.NE
  • 发表时间: 2026年2月3日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……