[Paper] RPG-AE:神经符号图自编码器与稀有模式挖掘用于基于溯源的异常检测
Source: arXiv - 2602.02929v1
Overview
本文介绍了 RPG‑AE,一种混合“神经‑符号”系统,将深度图表示学习与经典稀有模式挖掘相结合,用于在系统级溯源日志中发现高级持续性威胁(APTs)。通过将进程交互转化为图结构,使用图自编码器(GAE)学习其正常结构,然后利用不常见的行为模式放大可疑信号,作者在 DARPA Transparent Computing 基准上实现了最先进的检测效果。
关键贡献
- 神经符号架构:将图自编码器(深度学习)与稀有模式挖掘模块(符号 AI)结合在单一流水线中。
- 基于 k‑NN 的来源图构建:使用特征相似度构建进程行为图,保留时间和关系上下文。
- 通过重构误差 + 稀有性提升的异常评分:检测偏离学习到的正常图的情况,并对出现罕见共现的进程提升评分。
- 全面评估:在 DARPA TC 数据集上显示相较于纯 GAE 基线的显著改进,并在多个无监督检测器的集成中取得竞争性结果。
- 可解释性钩子:稀有模式组件提供人类可读的签名,解释为何进程被标记,弥合深度模型的“黑箱”鸿沟。
方法论
-
Data preprocessing – System‑level provenance events (e.g., file reads, network sockets) are encoded into a feature vector per process (CPU usage, I/O counts, syscall frequencies, etc.).
数据预处理 – 系统级的来源事件(例如文件读取、网络套接字)被编码为每个进程的特征向量(CPU 使用率、I/O 计数、系统调用频率等)。 -
Graph construction – For each time window, a k‑Nearest Neighbors (k‑NN) graph is built where nodes are processes and edges connect the k most similar processes based on the feature vectors. This captures “who behaves like whom.”
图构建 – 对于每个时间窗口,构建一个 k 最近邻 (k‑NN) 图,节点是进程,边连接基于特征向量最相似的 k 个进程。此过程捕获“谁的行为像谁”。 -
Graph Autoencoder (GAE) – A two‑layer Graph Convolutional Network (GCN) encoder compresses each node’s neighborhood into a low‑dimensional embedding; a decoder attempts to reconstruct the adjacency matrix. The reconstruction loss measures how well the model captures the normal relational structure.
图自编码器 (GAE) – 一个两层的图卷积网络 (GCN) 编码器将每个节点的邻域压缩为低维嵌入;解码器尝试重建邻接矩阵。重建损失衡量模型对 正常 关系结构的捕获程度。 -
Rare‑pattern mining – Independently, the system mines infrequent sub‑graphs (e.g., a specific combination of file accesses and network calls that appears in < 1 % of windows) using a classic frequent‑itemset algorithm adapted for graphs.
稀有模式挖掘 – 系统独立地使用一种针对图的经典频繁项集算法挖掘 不常见子图(例如在 < 1 % 窗口中出现的特定文件访问和网络调用组合)。 -
Anomaly scoring – For a given process, the final score = GAE reconstruction error + rarity boost (if the process participates in a mined rare pattern). The boost is calibrated so that truly anomalous rare patterns outweigh benign noise.
异常评分 – 对于给定进程,最终得分 = GAE 重建误差 + 稀有度提升(如果该进程参与了挖掘出的稀有模式)。该提升经过校准,使真正异常的稀有模式能够压倒良性噪声。 -
Ranking & alerting – Processes are ranked by their composite scores; top‑k are presented to analysts.
排序与告警 – 根据综合得分对进程进行排序;前 k 名呈现给分析员。
结果与发现
| 指标(数值越高越好) | 仅 GAE | RPG‑AE(GAE + 稀有提升) | 最佳已有无监督方法 |
|---|---|---|---|
| AUROC | 0.84 | 0.92 | 0.88 |
| AUPRC | 0.31 | 0.48 | 0.42 |
| Mean Rank of APT events | 57 | 22 | 35 |
- 稀有模式提升 将真实 APT 进程的排名提升约 60 %,相对于基线 GAE。
- 单一的 RPG‑AE 模型的表现匹配或超越了结合 3–4 个独立检测器的集成方法,同时所需的工程工作量要少得多。
- 定性分析表明,许多高分警报对应于已知的 APT 战术(例如,通过不常见的 IPC 通道进行横向移动),验证了可解释性优势。
实际影响
- Plug‑and‑play anomaly detector: 安全团队可以将 RPG‑AE 作为即插即用模块部署在现有的来源收集管道上(例如 Sysdig、Falco 或操作系统级审计日志),无需训练多个专用模型。
- Reduced alert fatigue: 通过呈现 rarest 可疑模式,系统优先处理更可能是真实威胁的警报,帮助 SOC 分析员专注于高价值的调查。
- Explainable alerts: 稀有模式组件提供简明的“why”(例如,“进程 X 执行了 DNS 查询 + 特权文件写入的罕见组合”),可直接用于工单系统或自动化响应剧本。
- Scalable to large environments: k‑NN 图在每个滑动窗口内构建,GAE 随节点数量线性扩展;通过调整支持阈值可以限制稀有模式挖掘,使该方法适用于云原生微服务集群。
- Foundation for downstream defenses: 学习得到的嵌入可复用于威胁狩猎、横向移动检测,或输入到基于强化学习的响应代理中。
限制与未来工作
- 依赖于来源数据的质量 – 缺失或噪声日志会削弱图结构和稀有性统计。
- 静态稀有阈值 – 当前的挖掘步骤使用固定的支持阈值;自适应阈值可以更好地应对不断演变的基线。
- 时间粒度 – 该方法独立处理窗口,可能会遗漏跨窗口的攻击链;引入循环或时序 GNN 是一个有前景的方向。
- 评估仅限于 DARPA TC – 虽然该基准严格,但在真实企业数据集(如 Microsoft Azure、Google Cloud)上进行更广泛的验证将加强对通用性的主张。
底线:RPG‑AE 证明,将深度图学习与经典模式挖掘相结合,可提供更准确、可解释且易于运维的基于来源的 APT 检测方案——开发者和安全工程师今天即可开始尝试这种方法。
作者
- Asif Tauhid
- Sidahmed Benabderrahmane
- Mohamad Altrabulsi
- Ahamed Foisal
- Talal Rahwan
论文信息
- arXiv ID: 2602.02929v1
- 分类: cs.LG, cs.AI, cs.CR, cs.NE
- 发表时间: 2026年2月3日
- PDF: 下载 PDF