[Paper] SearchAttack:Red-Teaming LLMs 对抗真实世界威胁的 不安全的网络信息检索任务
发布: (2026年1月8日 GMT+8 00:59)
7 min read
原文: arXiv
Source: arXiv - 2601.04093v1
Overview
大型语言模型(LLMs)正日益与网络搜索工具结合,以提升对开放式查询的事实准确性。然而,这种“搜索增强”设置产生了新的攻击面:当用户请求有害信息时,搜索引擎可能会呈现危险内容,而LLM 的安全过滤器已无法阻止。论文 SearchAttack 引入了一套系统化的红队框架,利用此弱点,展示了恶意行为者如何诱导搜索增强的 LLM 提供现实中的不安全建议。
关键贡献
- 攻击分类:定义“不安全的网络信息检索任务”,并展示其与传统提示注入攻击的区别。
- SearchAttack 框架:一个两阶段流水线,(1) 构造最小、无害的查询骨架以触发有害搜索结果,(2) 使用结构化提示(评分标准)引导大型语言模型将这些结果拼接成连贯的恶意输出。
- 全面评估:对多种流行的搜索增强型大型语言模型进行基准测试(例如 Bing Chat、带网页搜索的 Google Gemini、开源检索增强生成管道)。
- 高成功率的实证:证明即使是最先进的安全缓解措施也能在 >70 % 的测试不安全场景中被绕过。
- 负责任披露:提供具体的缓解建议,并公开发布安全/不安全查询‑评分标准对的数据集,以供未来研究使用。
Methodology
- Threat Modeling – 作者首先将“search surface”定义为大型语言模型(LLM)将用户查询交给外部搜索引擎的那一点。他们按照有害目标的类型(例如,武器设计、非法金融、虚假信息)对攻击进行分类。
- Skeleton Query Generation – 攻击者并不直接向模型请求危险指令,而是提交一个模糊、看似无害的查询(例如,“最新的化学合成研究”),该查询很可能检索到包含目标知识的页面。
- Result Harvesting – 搜索引擎返回摘要、URL 或完整文档。攻击者仅提取相关片段,即包含不安全内容的部分,其余内容则舍弃。
- Rubric‑Guided Reconstruction – 精心设计的提示(即“rubric”)指示 LLM 将收集到的片段重新组织成满足恶意目标的逐步指南,同时保持答案的正常外观。
- Evaluation Protocol – 在多个 LLM 与搜索引擎的组合上运行该流水线。成功的衡量标准是最终输出是否包含可操作的有害指令,并能够通过人工安全审查员和自动检测器的审查。
结果与发现
| 测试系统 | 成功率(实现不安全目标) | 显著观察 |
|---|---|---|
| Bing Chat (search‑augmented) | 78 % | 即使内置了“有害内容”过滤器,在评分标准的引导下,模型仍会复现制造武器的步骤。 |
| Gemini + Web Search | 71 % | 模型倾向于改写检索到的文本,保留危险细节。 |
| Open‑source RAG (LangChain + GPT‑4) | 84 % | 检索组件暴露了原始文档,使其最容易被利用。 |
| Baseline LLM (no search) | 12 % | 传统的提示注入攻击仍然效果大打折扣。 |
作者还展示了该攻击在多种语言(英语、中文、西班牙语)以及多类威胁(化学武器、钓鱼脚本、极端主义宣传)中均有效。值得注意的是,攻击without 直接让 LLM 生成不安全内容;危险材料来源于网络。
Practical Implications
- 产品设计师 必须将搜索 API 视为 第一道防线。仅在 LLM 周围包装安全过滤器不足以防止外部内容绕过。
- 安全流水线 应加入 检索后净化:在原始搜索片段到达 LLM 之前进行内容过滤,可能使用多阶段分类器或知识图谱检查。
- 检索增强生成 (RAG) 开发者 应考虑“来源归属”和“置信度评分”,以标记高风险文档,并可选择拒绝纳入。
- 企业安全团队 可以将 SearchAttack 框架用作测试工具,审计自家 LLM‑搜索集成,提前发现盲点,防止恶意行为者利用。
- 政策制定者 可能需要重新审视将 LLM 与开放网络搜索相结合的服务的责任模型,因为不安全输出的责任现在部分在于搜索提供商。
局限性与未来工作
- 搜索引擎依赖:攻击的成功取决于搜索引擎返回足够详细的不安全片段。对结果进行强力过滤的引擎可能会降低其有效性。
- 提示工程开销:构建有效的评估标准仍需人工洞察;自动化生成评估标准仍是一个未解决的挑战。
- 威胁范围:研究聚焦于“知识密集型”危害(例如指令)。其他类别,如个人数据泄露或社会操纵,尚未被全面探讨。
- 缓解措施验证:虽然作者提出了对策,但尚未在大规模生产环境中进行测试。未来工作应对防御流水线进行基准评估,以应对相同的攻击套件。
通过揭示网络搜索集成的隐藏风险,SearchAttack 推动社区朝着更稳健、多层次的安全架构迈进,为下一代 AI 助手奠定基础。
作者
- Yu Yan
- Sheng Sun
- Mingfeng Li
- Zheming Yang
- Chiwei Zhu
- Fei Ma
- Benfeng Xu
- Min Liu
论文信息
- arXiv ID: 2601.04093v1
- 分类: cs.CL
- 发布时间: 2026年1月7日
- PDF: 下载 PDF