[Paper] 上下文感知自主网络事件响应：端到端大语言模型 Agent 方法

发布: 3天前 (2026年2月14日 GMT+8 02:09)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.13156v1

概览

本文提出了一种基于 14 十亿参数的大型语言模型（LLM） 的 端到端事件响应代理。通过利用 LLM 预训练的安全知识和上下文学习，系统能够读取原始网络日志，推断当前攻击状态，规划缓解步骤并执行响应——全部无需手工构建的模拟器。作者展示了该轻量化方法可以在普通硬件上运行，并且在恢复事件方面比现有基于 LLM 的基线 快 23 %。

关键贡献

Agentic architecture 将感知、推理、规划和行动统一于单一 LLM 中。
In‑context adaptation loop：模型通过将模拟结果与真实观察进行比较，持续细化其攻击假设。
Fine‑tuning + chain‑of‑thought prompting 使 LLM 能解析非结构化日志并生成结构化的网络状态表示。
Hardware‑friendly design：14B 模型可在普通 GPU 上运行，免除对大型计算集群的需求。
Empirical evaluation 在公开的事件日志上进行，显示相较于最先进的 LLM 代理，恢复速度提升了 23 %。

方法论

感知 – LLM 接收原始系统日志和警报作为文本提示。通过链式思考推理，它提取关键实体（IP 地址、时间戳、错误代码），并构建简洁的“网络状态”快照。
推理 – 模型通过将观察到的伪迹与其预训练的安全知识库匹配，更新内部的攻击模型假设（例如，“通过 SMB 漏洞进行横向移动”）。
规划 – 它通过自我提示“运行心理模拟”，模拟不同响应行动（隔离主机、阻断端口、重置凭证）对网络状态的影响。
行动 – LLM 输出具体的修复指令（防火墙规则、服务重启、取证收集脚本）。
反馈回路 – 在执行操作后，将新日志反馈给模型。模拟结果与实际观察结果之间的差异会触发对攻击假设的修正，循环重复，直至事件被遏制。

整个流水线由单一的 LLM 驱动，该模型已在精心策划的事件响应叙事语料库上进行轻度微调，使其能够在无需外部编排组件的情况下遵循四步工作流。

结果与发现

指标	提议的 14B LLM 代理	先前的 LLM 基线
平均恢复时间 (MTTR)	快 23 %	基线
收敛到正确攻击模型所需的交互循环次数	2.1 ± 0.4	3.4 ± 0.7
硬件占用 (GPU 显存)	~12 GB（单 GPU）	24 GB+（多 GPU）
基准事件日志（10 案例）上的成功率	9/10 已解决	7/10 已解决

代理始终在两个推理循环内识别出正确的攻击向量，并生成的补救步骤比竞争方法更早阻止了漏洞。重要的是，系统 不需要手工构建的仿真环境，仅依赖 LLM 的内部知识。

实际意义

快速部署：安全团队可以在普通工作站或云虚拟机上快速启动响应式事件响应机器人，避免基于强化学习的模拟器的长时间设置。
降低工程开销：无需维护单独的攻击模拟引擎；大语言模型同时处理推理和“假设”分析。
可扩展至异构环境：由于模型直接在原始日志上工作，可无须自定义解析器即可摄取云服务、容器编排平台或本地防火墙的数据。
增强SOC工作流：该代理可充当“第一线分析员”，提供简明的攻击假设和推荐的行动供人工分析师审阅，从而缩短分流时间。
成本效益：在单个 GPU 上运行 14B 模型的成本远低于维护大型强化学习训练集群，使自主响应对中型企业也变得可行。

限制与未来工作

依赖提示质量：如果日志被严重混淆或缺少关键字段，代理的性能会下降；仍需稳健的预处理流水线。
可解释性：虽然链式思考输出提供了一定的透明度，但底层推理仍是黑箱 LLM，可能阻碍受监管行业的审计能力。
领域适应：微调数据集覆盖了常见企业攻击；新颖或高度针对性的威胁可能需要额外的领域特定数据。
大规模网络的可扩展性：当前设计按顺序处理日志；未来工作可以探索层次化提示或检索增强模型，以处理 PB 级遥测数据。

作者建议通过 检索增强生成 (RAG) 来加入最新的威胁情报源，并整合 人机交互验证，以在自主性与合规要求之间取得平衡。

作者

Yiran Gao
Kim Hammar
Tao Li

论文信息

arXiv ID: 2602.13156v1
分类: cs.CR, cs.AI
发表时间: 2026年2月13日
PDF: 下载 PDF

[Paper] 上下文感知自主网络事件响应：端到端大语言模型 Agent 方法

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 模仿有效方法：Simulation-Filtered Modular Policy Learning 来自人类视频

[Paper] 语义分块与自然语言的熵

[Paper] CoPE-VideoLM：用于高效视频语言模型的 Codec 原语

[Paper] CMIP6模型在Jhelum和Chenab流域区域降水预测与气候变化评估中的选择