[Paper] WebSentinel:检测和定位 Prompt Injection 攻击的 Web 代理
发布: (2026年2月4日 GMT+8 01:55)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.03792v1
概述
Web agents——基于浏览器的助手,读取页面内容并根据用户指令执行操作——正日益成为 prompt injection 攻击的目标,这类攻击通过恶意页面元素劫持代理的指令。论文 WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents 介绍了一种实用的两阶段系统,能够自动在真实网页中发现并定位这些隐藏的操纵。
关键贡献
- 两步检测流水线 – 首先隔离“感兴趣的片段”(可能是恶意代码),然后在页面整体上下文中验证每个片段。
- 上下文一致性评分 – 一种轻量级、基于语言模型的度量,衡量片段的提示与页面其余部分的匹配程度。
- 全面基准测试 – 作者收集了多样化的干净和受污染页面数据集(包括电子商务、新闻和文档站点),用于评估检测和定位性能。
- 开源实现 – 完整的代码和数据已发布,便于复现并轻松集成到现有的网页代理流水线中。
- 显著的性能提升 – WebSentinel 在精确率和召回率上均大幅超越之前的基线(基于规则的过滤器、单阶段分类器)。
方法论
-
段落提取(步骤 I)
- 对网页的 DOM 进行解析并拆分为逻辑块(例如
<div>、<section>、script 标签)。 - 通过文本长度、代码样式模式的出现以及与用户可见内容的接近程度等启发式规则标记“感兴趣的段落”。
- 对网页的 DOM 进行解析并拆分为逻辑块(例如
-
上下文一致性检查(步骤 II)
- 将每个候选段落连同页面其余部分一起输入预训练的大语言模型(LLM)。
- 模型通过衡量该段落的提示是否自然衔接周围文本来生成一致性得分。
- 低得分的段落被标记为潜在的提示注入;该得分也可用作定位线索。
该流水线刻意保持模型无关性:任何具备文本补全 API 的 LLM 都可以替换使用,使该方法能够适应不断演进的模型能力。
Results & Findings
| Metric | Clean Pages | Contaminated Pages |
|---|---|---|
| Precision | 0.96 | 0.94 |
| Recall | 0.93 | 0.91 |
| F1‑score | 0.95 | 0.92 |
| Localization accuracy (top‑1) | – | 0.88 |
- WebSentinel 一直显著优于最强基线(经过微调的 BERT 分类器),在受污染页面上提升 +12% F1。
- 两步式设计大幅降低了误报;大多数良性脚本在步骤 I 后被忽略。
- 消融实验表明,去除上下文一致性检查会使召回率下降约 15%,验证了其核心作用。
Practical Implications
- 安全的浏览器扩展和 AI 助手 – 开发者可以将 WebSentinel 嵌入为预检过滤器,防止恶意提示到达 LLM 后端。
- 企业级网页抓取流水线 – 自动化爬虫可以自动丢弃或隔离被标记为受损的页面,保护下游分析。
- 合规与内容审核 – 本地化输出精准定位到具体的 DOM 元素,使得可以进行有针对性的清理,而不是粗糙的页面封锁。
- 低开销 – 由于步骤 I 剪枝了搜索空间,昂贵的 LLM 打分仅在每页少量片段上运行,从而保持适合交互式代理的延迟。
限制与未来工作
- 对大型语言模型质量的依赖 – 一致性得分取决于底层模型对领域的理解;针对小众或高度技术性的页面可能会产生噪声得分。
- 规避策略 – 攻击者可能会构造更贴合周围上下文的注入,从而降低检测率。
- 仅限静态分析 – 当前系统基于渲染后的 HTML 工作;页面加载后通过客户端脚本动态加载的内容尚未覆盖。
未来方向包括集成 JavaScript 执行的运行时监控、探索对抗性训练以强化一致性评分器,以及将框架扩展到处理网页中嵌入的图像或音频的多模态代理。
作者
- Xilong Wang
- Yinuo Liu
- Zhun Wang
- Dawn Song
- Neil Gong
论文信息
- arXiv ID: 2602.03792v1
- 分类: cs.CR, cs.AI, cs.CL
- 发表时间: 2026年2月3日
- PDF: 下载 PDF