[Paper] 从一个攻击域到另一个:对比迁移学习与Siamese网络用于APT检测
发布: (2025年11月26日 GMT+8 01:07)
7 min read
原文: arXiv
Source: arXiv - 2511.20500v1
概览
本文提出了一种新颖的混合框架,融合迁移学习、对比学习和 Siamese 神经网络,以在不同攻击域中检测高级持续性威胁(APT)。通过解决传统检测器长期困扰的类别不平衡和特征漂移问题,作者展示了一种更稳健、可解释且可迁移的真实世界网络防御方案。
关键贡献
- 跨域 APT 检测:一种迁移学习流水线,在从已知(源)攻击环境迁移到未知(目标)环境时仍能保持检测性能。
- 对比 Siamese 编码器:使用带对比损失的 Siamese 架构对齐源域和目标域特征空间,提升异常的可分离性。
- 基于注意力的自编码器用于知识转移:学习紧凑、域无关的表示,保留最关键的行为特征。
- 使用 SHAP 的可解释特征选择:应用 Shapley Additive exPlanations(SHAP)对高维遥测数据进行剪枝,得到稳定且信息丰富的子集,降低计算开销。
- 广泛的实证验证:在 DARPA Transparent Computing(TC)数据集以及合成攻击场景上的实验表明,相较于传统机器学习和深度基线方法,本文方法始终取得一致的提升。
方法论
- 数据预处理 & 基于 SHAP 的特征剪枝 – 将原始系统调用和网络遥测数据首先送入 SHAP 分析。对多次运行中始终对检测有贡献的特征予以保留,而噪声或冗余维度则被剔除。
- 基于注意力的自编码器 – 将降维后的特征集合通过配备注意力头的自编码器编码为潜在向量。注意力机制突出时间或上下文模式中最与 APT 行为相关的部分。
- Siamese 对比学习 – 两个相同的编码器(“Siamese 双胞胎”)并行处理源域样本和目标域样本。对比损失将同类(良性 vs 恶意)的表示拉近,不同类的配对则拉远,从而在共享嵌入空间中对齐两个域。
- 异常评分 – 在学习得到的嵌入空间中,使用简单的基于距离的或轻量级分类器(例如单类 SVM)将离群点标记为潜在 APT。由于嵌入是域无关的,同一评分模型可在不同环境中复用。
- 可解释性层 – 在最终检测器上重新计算 SHAP 值,为每个实例提供解释,帮助分析人员理解为何某条轨迹被标记。
结果与发现
- 检测提升:在多个源‑到‑目标迁移任务中,所提方法相较于最佳深度基线提升 F1 分数 7–12 %,相较于传统随机森林检测器提升最高达 20 %。
- 降维效果:基于 SHAP 的剪枝将特征空间缩减约 65 %,而精度不受影响,推理速度提升约 30 %。
- 对合成攻击的鲁棒性:在人工生成的 APT 场景(如新型指挥‑控制模式)评估时,对比 Siamese 编码器保持高可分离性,表明对特征漂移具有抵抗力。
- 可解释性:分析人员反馈 SHAP 可视化提供了更清晰的检测触发因素洞察,突出了一小部分系统调用和网络端口始终与恶意活动相关。
实际意义
- 即插即用的检测模块:安全团队可以在一个环境(如企业网络)的历史日志上训练模型,然后在新环境(如云租户)中几乎无需重新训练即可部署。
- 降低运营成本:通过缩小特征集并使用轻量级下游分类器,解决方案能够在边缘设备或对时延要求亚秒级的 SIEM 流水线中顺畅运行。
- 审计就绪的警报:集成的 SHAP 解释满足合规和取证需求,为 SOC 分析员提供可操作的上下文,而非不透明的分数。
- 可扩展至异构数据:注意力自编码器能够摄取多种遥测(进程、文件、网络),使该方法适用于聚合多向量日志的现代零信任架构。
局限性与未来工作
- 对 SHAP 特征质量的依赖:若初始 SHAP 分析误删了微妙但关键的指示器,检测性能可能下降;作者建议采用自适应特征选择作为补救。
- 合成 vs 真实新颖性:虽然使用合成攻击对模型进行压力测试,但论文承认真正新颖的 APT 战术仍可能导致表示漂移。
- 训练计算开销:对比 Siamese 的训练阶段比单流模型更耗资源,这可能成为缺乏 GPU 集群的组织的瓶颈。
- 未来方向:将框架扩展至持续学习(在线更新),探索其他可解释性技术(如 LIME),以及在更多公开 APT 数据集(如 MITRE ATT&CK 仿真)上进行评估。
作者
- Sidahmed Benabderrahmane
- Talal Rahwan
论文信息
- arXiv ID: 2511.20500v1
- 分类: cs.LG, cs.AI, cs.CR, cs.NE
- 发布日期: 2025 年 11 月 25 日
- PDF: Download PDF