[论文] 排名增强的异常检测：使用主动学习辅助注意力对抗双自动编码器

发布: 2个月前 (2025年11月26日 GMT+8 00:42)

6 分钟阅读

原文: arXiv

Source: arXiv - 2511.20480v1

概览

本文解决了网络安全中最棘手的问题之一：在海量系统级日志流中发现隐藏的高级持续性威胁（APT）。由于标记的攻击数据极其稀缺，作者将 无监督自编码器 与 主动学习循环 相结合，后者仅让人类（或oracle）标记最模糊的样本。最终得到的“排名增强”检测器能够快速学习标记罕见的APT事件，同时将标记工作量降至最低。

主要贡献

带注意力机制和对抗训练的双自编码器架构，能够学习更丰富的来源追踪表示。
主动学习辅助的排名：模型按不确定性为未标记样本打分，查询前 k 个样本的标签，并迭代重新训练。
在 DARPA Transparent Computing 来源数据集上的全面评估，涵盖 Android、Linux、BSD 和 Windows，其中 APT 类攻击仅占数据的 0.004 %。
相较于最先进的无监督和半监督异常检测器的检测率优势的实证证据。
可直接嵌入现有安全运营中心（SOC）的实用工作流，降低人工标记开销。

方法论

数据表示 – 将原始系统调用和文件访问事件转换为 来源图（节点 = 进程/文件，边 = 交互）。这些图被展平为序列并输入自编码器。
双自编码器 – 两个并行自编码器（一个用于重构，另一个用于对抗生成）共享一个 注意力模块，该模块突出输入序列中最有信息量的部分。重构误差作为初始异常分数。
主动学习循环
- 不确定性排名：对每个未标记的追踪，模型计算 置信度间隔（前两类概率的差值）和 重构误差 排名。
- 查询选择：将排名最高的 N 条不确定追踪发送给人工分析师（即 “oracle”）进行标记。
- 模型更新：将标记样本加入训练集；对双自编码器进行微调，并重新校准注意力权重。
- 该循环重复进行，直至满足停止准则（例如预算耗尽或性能平台）。
评估指标 – 报告精确率、召回率、F1 分数以及精确率‑召回率曲线下面积（AUPR），重点关注少数类 APT。

结果与发现

数据集 (操作系统)	基线（普通 AE）	提出的方法双 AE + AL	相对提升
Android	召回 0.31，AUPR 0.12	召回 0.58，AUPR 0.27	+87 % 召回
Linux	召回 0.28，AUPR 0.10	召回 0.55，AUPR 0.24	+96 % 召回
BSD	召回 0.33，AUPR 0.13	召回 0.60，AUPR 0.29	+82 % 召回
Windows	召回 0.30，AUPR 0.11	召回 0.57，AUPR 0.26	+90 % 召回

主动学习降低标记成本：仅约 1 % 的总追踪需要人工标记，即可实现 >50 % 的召回率。
注意力提升可解释性：来源图上的热图突出显示了对异常分数贡献最大的系统调用，帮助分析师进行分流。
跨操作系统的鲁棒性：相同的超参数在四种操作系统上均有效，展示了方法的通用性。

实际意义

SOC 集成 – 该框架可部署在现有日志摄取管道之上（如 Elastic Stack、Splunk），持续向分析师推荐 “高不确定性” 警报，显著减少误报处理时间。
标签高效的威胁狩猎 – 团队只需少量已验证的事件即可启动 APT 检测模型，随后让主动学习循环自动扩大覆盖范围。
跨平台安全 – 由于模型基于来源图而非特定操作系统签名，可在异构环境（云 VM、容器、移动设备）中部署，无需从头重新训练。
可解释 AI 用于审计 – 注意力热图提供可视化审计轨迹，满足 GDPR、NIST 等合规要求，解释为何某项活动被标记。

局限性与未来工作

对 Oracle 的依赖 – 方法假设有可靠的人类分析师提供正确标签；噪声或延迟的反馈可能导致性能下降。
图构建的可扩展性 – 在高吞吐量环境下生成来源图可能成为瓶颈，作者建议采用增量图更新作为后续改进。
对抗鲁棒性 – 虽然使用了对抗自编码器进行表示学习，但论文未评估对专门构造的规避攻击的抵抗能力。
未来方向 – 将方法扩展至流式数据（在线学习），结合威胁情报源以提供更丰富的上下文，探索在海量未标记日志上的自监督预训练。

作者

Sidahmed Benabderrahmane
James Cheney
Talal Rahwan

论文信息

arXiv ID: 2511.20480v1
分类: cs.LG, cs.AI, cs.CR, cs.NE
发布日期: 2025 年 11 月 25 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 思考即行动：通过多轮交互在 LLM 中构建高效的 World Model 推理

开发稳健的世界模型推理对于大型语言模型（LLM）代理在复杂环境中进行规划和交互至关重要。虽然多轮交互……

[Paper] ThetaEvolve：测试时学习在开放问题上

近期在大型语言模型（LLMs）方面的进展已经促成了数学发现的突破，以 AlphaEvolve 为例，这是一个闭源系统，...

[Paper] 进步的代价：算法效率与 AI 推理成本下降

近年来，语言模型在高级基准上取得了巨大的进展，但这些进展在很大程度上只能通过使用更昂贵的模型来实现……

[Paper] Physics-Informed Neural Networks 用于热物性属性检索

Inverse heat problems 指的是在已观测或已知的热扩散行为下，对材料热物理属性进行估计。Inverse heat problems 已经…