[Paper] 使用大语言模型进行IoT网络未知攻击检测：一种鲁棒且数据高效的方法

发布: 3天前 (2026年2月13日 GMT+8 01:15)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.12183v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文并保持原有的格式。

概述

一篇新论文提出了 SiamXBERT，这是一种元学习框架，利用大型语言模型（LLMs）来检测物联网（IoT）网络中以前未见过的（零日）攻击。通过将流级统计与原始数据包相结合，即使在流量加密且仅有少量标记示例可用的情况下，该方法仍能有效工作——这正是当今入侵检测系统的两个痛点。

双模态表示: 将流级特征（例如，数据包计数、持续时间）与数据包级字节序列相结合，在无需解密负载的情况下保留丰富的行为线索。
基于 BERT 的 Siamese 元学习: 使用基于 Transformer 的语言模型（BERT）作为 Siamese 网络的骨干，实现仅凭少量标记样本即可快速适应新攻击族。
数据高效学习: 与传统深度学习 IDS 相比，在训练实例显著更少的情况下仍展示出强大的检测性能。
跨数据集鲁棒泛化: 在多个物联网入侵数据集上验证，显示在未知攻击的 F1 分数上持续提升（最高 78.8 % 的改进）。
开源就绪流水线: 提供可复现的训练/评估工作流，可直接接入现有安全运营中心（SOC）。

特征提取
- 流级：标准 NetFlow/IPFIX 指标（字节数、数据包数、持续时间、到达间隔时间）。
- 包级：流中前 N 个数据包的原始字节序列，进行分词后输入到 BERT‑style Transformer。
孪生网络架构
- 两个相同的 BERT 编码器分别处理查询流和支持流（即新攻击的少量标记示例）。
- 编码器输出嵌入向量，使用距离度量（例如余弦相似度）进行比较。
元学习（少样本适应）
- 训练期间，模型会看到许多“episode”，每个 episode 模拟少样本情景：一个特定攻击类别的小型支持集和查询集。
- 损失函数鼓励模型将同一类别的嵌入拉近、不同类别的嵌入拉远，从而学习在极少数据下进行泛化。
推理
- 对于进入的流，SiamXBERT 计算其嵌入并与已知攻击的支持集进行相似度测量。
- 若相似度低于学习得到的阈值，则将该流标记为未知（潜在零日攻击）。

整个流水线在标准 GPU 硬件上运行，可与已有的收集流统计信息的 IDS 流程集成。

设置	基线（例如 CNN、LSTM）	SiamXBERT	Δ F1（未知攻击）
同数据集（相同 IoT 测试平台）	0.62	0.89	+43 %
跨数据集（在一个 IoT 数据集上训练，在另一个上测试）	0.48	0.86	+78.8 %
训练数据规模（占完整数据集的 10 %）	0.55	0.84	+53 %

总体而言，SiamXBERT 展示了基于 Transformer 的元学习如何为快速变化的 IoT 安全领域带来数据高效、零日检测——这是迈向更具韧性、AI 增强网络防御的令人振奋的一步。