[Paper] RPG-AE：神经符号图自编码器与稀有模式挖掘用于基于溯源的异常检测

发布: 5天前 (2026年2月3日 GMT+8 08:02)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.02929v1

Overview

本文介绍了 RPG‑AE，一种混合“神经‑符号”系统，将深度图表示学习与经典稀有模式挖掘相结合，用于在系统级溯源日志中发现高级持续性威胁（APTs）。通过将进程交互转化为图结构，使用图自编码器（GAE）学习其正常结构，然后利用不常见的行为模式放大可疑信号，作者在 DARPA Transparent Computing 基准上实现了最先进的检测效果。

关键贡献

神经符号架构：将图自编码器（深度学习）与稀有模式挖掘模块（符号 AI）结合在单一流水线中。
基于 k‑NN 的来源图构建：使用特征相似度构建进程行为图，保留时间和关系上下文。
通过重构误差 + 稀有性提升的异常评分：检测偏离学习到的正常图的情况，并对出现罕见共现的进程提升评分。
全面评估：在 DARPA TC 数据集上显示相较于纯 GAE 基线的显著改进，并在多个无监督检测器的集成中取得竞争性结果。
可解释性钩子：稀有模式组件提供人类可读的签名，解释为何进程被标记，弥合深度模型的“黑箱”鸿沟。

方法论

Data preprocessing – System‑level provenance events (e.g., file reads, network sockets) are encoded into a feature vector per process (CPU usage, I/O counts, syscall frequencies, etc.).
数据预处理 – 系统级的来源事件（例如文件读取、网络套接字）被编码为每个进程的特征向量（CPU 使用率、I/O 计数、系统调用频率等）。
Graph construction – For each time window, a k‑Nearest Neighbors (k‑NN) graph is built where nodes are processes and edges connect the k most similar processes based on the feature vectors. This captures “who behaves like whom.”
图构建 – 对于每个时间窗口，构建一个 k 最近邻 (k‑NN) 图，节点是进程，边连接基于特征向量最相似的 k 个进程。此过程捕获“谁的行为像谁”。
Graph Autoencoder (GAE) – A two‑layer Graph Convolutional Network (GCN) encoder compresses each node’s neighborhood into a low‑dimensional embedding; a decoder attempts to reconstruct the adjacency matrix. The reconstruction loss measures how well the model captures the normal relational structure.
图自编码器 (GAE) – 一个两层的图卷积网络 (GCN) 编码器将每个节点的邻域压缩为低维嵌入；解码器尝试重建邻接矩阵。重建损失衡量模型对正常关系结构的捕获程度。
Rare‑pattern mining – Independently, the system mines infrequent sub‑graphs (e.g., a specific combination of file accesses and network calls that appears in < 1 % of windows) using a classic frequent‑itemset algorithm adapted for graphs.
稀有模式挖掘 – 系统独立地使用一种针对图的经典频繁项集算法挖掘 不常见子图（例如在 < 1 % 窗口中出现的特定文件访问和网络调用组合）。
Anomaly scoring – For a given process, the final score = GAE reconstruction error + rarity boost (if the process participates in a mined rare pattern). The boost is calibrated so that truly anomalous rare patterns outweigh benign noise.
异常评分 – 对于给定进程，最终得分 = GAE 重建误差 + 稀有度提升（如果该进程参与了挖掘出的稀有模式）。该提升经过校准，使真正异常的稀有模式能够压倒良性噪声。
Ranking & alerting – Processes are ranked by their composite scores; top‑k are presented to analysts.
排序与告警 – 根据综合得分对进程进行排序；前 k 名呈现给分析员。

结果与发现

指标（数值越高越好）	仅 GAE	RPG‑AE（GAE + 稀有提升）	最佳已有无监督方法
AUROC	0.84	0.92	0.88
AUPRC	0.31	0.48	0.42
Mean Rank of APT events	57	22	35

稀有模式提升 将真实 APT 进程的排名提升约 60 %，相对于基线 GAE。
单一的 RPG‑AE 模型的表现匹配或超越了结合 3–4 个独立检测器的集成方法，同时所需的工程工作量要少得多。
定性分析表明，许多高分警报对应于已知的 APT 战术（例如，通过不常见的 IPC 通道进行横向移动），验证了可解释性优势。

实际影响

Plug‑and‑play anomaly detector: 安全团队可以将 RPG‑AE 作为即插即用模块部署在现有的来源收集管道上（例如 Sysdig、Falco 或操作系统级审计日志），无需训练多个专用模型。
Reduced alert fatigue: 通过呈现 rarest 可疑模式，系统优先处理更可能是真实威胁的警报，帮助 SOC 分析员专注于高价值的调查。
Explainable alerts: 稀有模式组件提供简明的“why”（例如，“进程 X 执行了 DNS 查询 + 特权文件写入的罕见组合”），可直接用于工单系统或自动化响应剧本。
Scalable to large environments: k‑NN 图在每个滑动窗口内构建，GAE 随节点数量线性扩展；通过调整支持阈值可以限制稀有模式挖掘，使该方法适用于云原生微服务集群。
Foundation for downstream defenses: 学习得到的嵌入可复用于威胁狩猎、横向移动检测，或输入到基于强化学习的响应代理中。

限制与未来工作

依赖于来源数据的质量 – 缺失或噪声日志会削弱图结构和稀有性统计。
静态稀有阈值 – 当前的挖掘步骤使用固定的支持阈值；自适应阈值可以更好地应对不断演变的基线。
时间粒度 – 该方法独立处理窗口，可能会遗漏跨窗口的攻击链；引入循环或时序 GNN 是一个有前景的方向。
评估仅限于 DARPA TC – 虽然该基准严格，但在真实企业数据集（如 Microsoft Azure、Google Cloud）上进行更广泛的验证将加强对通用性的主张。

底线：RPG‑AE 证明，将深度图学习与经典模式挖掘相结合，可提供更准确、可解释且易于运维的基于来源的 APT 检测方案——开发者和安全工程师今天即可开始尝试这种方法。

作者

Asif Tauhid
Sidahmed Benabderrahmane
Mohamad Altrabulsi
Ahamed Foisal
Talal Rahwan

论文信息

arXiv ID: 2602.02929v1
分类: cs.LG, cs.AI, cs.CR, cs.NE
发表时间: 2026年2月3日
PDF: 下载 PDF

[Paper] RPG-AE：神经符号图自编码器与稀有模式挖掘用于基于溯源的异常检测

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 伪可逆神经网络

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

[Paper] DyTopo：通过语义匹配的多智能体推理动态拓扑路由

[论文] CommCP：通过基于LLM的通信与共形预测实现高效多智能体协同