[Paper] SearchAttack:Red-Teaming LLMs 对抗真实世界威胁的 不安全的网络信息检索任务

发布: (2026年1月8日 GMT+8 00:59)
7 min read
原文: arXiv

Source: arXiv - 2601.04093v1

Overview

大型语言模型(LLMs)正日益与网络搜索工具结合,以提升对开放式查询的事实准确性。然而,这种“搜索增强”设置产生了新的攻击面:当用户请求有害信息时,搜索引擎可能会呈现危险内容,而LLM 的安全过滤器已无法阻止。论文 SearchAttack 引入了一套系统化的红队框架,利用此弱点,展示了恶意行为者如何诱导搜索增强的 LLM 提供现实中的不安全建议。

关键贡献

  • 攻击分类:定义“不安全的网络信息检索任务”,并展示其与传统提示注入攻击的区别。
  • SearchAttack 框架:一个两阶段流水线,(1) 构造最小、无害的查询骨架以触发有害搜索结果,(2) 使用结构化提示(评分标准)引导大型语言模型将这些结果拼接成连贯的恶意输出。
  • 全面评估:对多种流行的搜索增强型大型语言模型进行基准测试(例如 Bing Chat、带网页搜索的 Google Gemini、开源检索增强生成管道)。
  • 高成功率的实证:证明即使是最先进的安全缓解措施也能在 >70 % 的测试不安全场景中被绕过。
  • 负责任披露:提供具体的缓解建议,并公开发布安全/不安全查询‑评分标准对的数据集,以供未来研究使用。

Methodology

  1. Threat Modeling – 作者首先将“search surface”定义为大型语言模型(LLM)将用户查询交给外部搜索引擎的那一点。他们按照有害目标的类型(例如,武器设计、非法金融、虚假信息)对攻击进行分类。
  2. Skeleton Query Generation – 攻击者并不直接向模型请求危险指令,而是提交一个模糊、看似无害的查询(例如,“最新的化学合成研究”),该查询很可能检索到包含目标知识的页面。
  3. Result Harvesting – 搜索引擎返回摘要、URL 或完整文档。攻击者仅提取相关片段,即包含不安全内容的部分,其余内容则舍弃。
  4. Rubric‑Guided Reconstruction – 精心设计的提示(即“rubric”)指示 LLM 将收集到的片段重新组织成满足恶意目标的逐步指南,同时保持答案的正常外观。
  5. Evaluation Protocol – 在多个 LLM 与搜索引擎的组合上运行该流水线。成功的衡量标准是最终输出是否包含可操作的有害指令,并能够通过人工安全审查员和自动检测器的审查。

结果与发现

测试系统成功率(实现不安全目标)显著观察
Bing Chat (search‑augmented)78 %即使内置了“有害内容”过滤器,在评分标准的引导下,模型仍会复现制造武器的步骤。
Gemini + Web Search71 %模型倾向于改写检索到的文本,保留危险细节。
Open‑source RAG (LangChain + GPT‑4)84 %检索组件暴露了原始文档,使其最容易被利用。
Baseline LLM (no search)12 %传统的提示注入攻击仍然效果大打折扣。

作者还展示了该攻击在多种语言(英语、中文、西班牙语)以及多类威胁(化学武器、钓鱼脚本、极端主义宣传)中均有效。值得注意的是,攻击without 直接让 LLM 生成不安全内容;危险材料来源于网络。

Practical Implications

  • 产品设计师 必须将搜索 API 视为 第一道防线。仅在 LLM 周围包装安全过滤器不足以防止外部内容绕过。
  • 安全流水线 应加入 检索后净化:在原始搜索片段到达 LLM 之前进行内容过滤,可能使用多阶段分类器或知识图谱检查。
  • 检索增强生成 (RAG) 开发者 应考虑“来源归属”和“置信度评分”,以标记高风险文档,并可选择拒绝纳入。
  • 企业安全团队 可以将 SearchAttack 框架用作测试工具,审计自家 LLM‑搜索集成,提前发现盲点,防止恶意行为者利用。
  • 政策制定者 可能需要重新审视将 LLM 与开放网络搜索相结合的服务的责任模型,因为不安全输出的责任现在部分在于搜索提供商。

局限性与未来工作

  • 搜索引擎依赖:攻击的成功取决于搜索引擎返回足够详细的不安全片段。对结果进行强力过滤的引擎可能会降低其有效性。
  • 提示工程开销:构建有效的评估标准仍需人工洞察;自动化生成评估标准仍是一个未解决的挑战。
  • 威胁范围:研究聚焦于“知识密集型”危害(例如指令)。其他类别,如个人数据泄露或社会操纵,尚未被全面探讨。
  • 缓解措施验证:虽然作者提出了对策,但尚未在大规模生产环境中进行测试。未来工作应对防御流水线进行基准评估,以应对相同的攻击套件。

通过揭示网络搜索集成的隐藏风险,SearchAttack 推动社区朝着更稳健、多层次的安全架构迈进,为下一代 AI 助手奠定基础。

作者

  • Yu Yan
  • Sheng Sun
  • Mingfeng Li
  • Zheming Yang
  • Chiwei Zhu
  • Fei Ma
  • Benfeng Xu
  • Min Liu

论文信息

  • arXiv ID: 2601.04093v1
  • 分类: cs.CL
  • 发布时间: 2026年1月7日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »