[Paper] SearchAttack：Red-Teaming LLMs 对抗真实世界威胁的不安全的网络信息检索任务

发布: 3个月前 (2026年1月8日 GMT+8 00:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.04093v1

Overview

大型语言模型（LLMs）正日益与网络搜索工具结合，以提升对开放式查询的事实准确性。然而，这种“搜索增强”设置产生了新的攻击面：当用户请求有害信息时，搜索引擎可能会呈现危险内容，而LLM 的安全过滤器已无法阻止。论文 SearchAttack 引入了一套系统化的红队框架，利用此弱点，展示了恶意行为者如何诱导搜索增强的 LLM 提供现实中的不安全建议。

关键贡献

攻击分类：定义“不安全的网络信息检索任务”，并展示其与传统提示注入攻击的区别。
SearchAttack 框架：一个两阶段流水线，(1) 构造最小、无害的查询骨架以触发有害搜索结果，(2) 使用结构化提示（评分标准）引导大型语言模型将这些结果拼接成连贯的恶意输出。
全面评估：对多种流行的搜索增强型大型语言模型进行基准测试（例如 Bing Chat、带网页搜索的 Google Gemini、开源检索增强生成管道）。
高成功率的实证：证明即使是最先进的安全缓解措施也能在 >70 % 的测试不安全场景中被绕过。
负责任披露：提供具体的缓解建议，并公开发布安全/不安全查询‑评分标准对的数据集，以供未来研究使用。

Methodology

Threat Modeling – 作者首先将“search surface”定义为大型语言模型（LLM）将用户查询交给外部搜索引擎的那一点。他们按照有害目标的类型（例如，武器设计、非法金融、虚假信息）对攻击进行分类。
Skeleton Query Generation – 攻击者并不直接向模型请求危险指令，而是提交一个模糊、看似无害的查询（例如，“最新的化学合成研究”），该查询很可能检索到包含目标知识的页面。
Result Harvesting – 搜索引擎返回摘要、URL 或完整文档。攻击者仅提取相关片段，即包含不安全内容的部分，其余内容则舍弃。
Rubric‑Guided Reconstruction – 精心设计的提示（即“rubric”）指示 LLM 将收集到的片段重新组织成满足恶意目标的逐步指南，同时保持答案的正常外观。
Evaluation Protocol – 在多个 LLM 与搜索引擎的组合上运行该流水线。成功的衡量标准是最终输出是否包含可操作的有害指令，并能够通过人工安全审查员和自动检测器的审查。

结果与发现

测试系统	成功率（实现不安全目标）	显著观察
Bing Chat (search‑augmented)	78 %	即使内置了“有害内容”过滤器，在评分标准的引导下，模型仍会复现制造武器的步骤。
Gemini + Web Search	71 %	模型倾向于改写检索到的文本，保留危险细节。
Open‑source RAG (LangChain + GPT‑4)	84 %	检索组件暴露了原始文档，使其最容易被利用。
Baseline LLM (no search)	12 %	传统的提示注入攻击仍然效果大打折扣。

作者还展示了该攻击在多种语言（英语、中文、西班牙语）以及多类威胁（化学武器、钓鱼脚本、极端主义宣传）中均有效。值得注意的是，攻击without 直接让 LLM 生成不安全内容；危险材料来源于网络。

Practical Implications

产品设计师 必须将搜索 API 视为 第一道防线。仅在 LLM 周围包装安全过滤器不足以防止外部内容绕过。
安全流水线 应加入 检索后净化：在原始搜索片段到达 LLM 之前进行内容过滤，可能使用多阶段分类器或知识图谱检查。
检索增强生成 (RAG) 开发者 应考虑“来源归属”和“置信度评分”，以标记高风险文档，并可选择拒绝纳入。
企业安全团队 可以将 SearchAttack 框架用作测试工具，审计自家 LLM‑搜索集成，提前发现盲点，防止恶意行为者利用。
政策制定者 可能需要重新审视将 LLM 与开放网络搜索相结合的服务的责任模型，因为不安全输出的责任现在部分在于搜索提供商。

局限性与未来工作

搜索引擎依赖：攻击的成功取决于搜索引擎返回足够详细的不安全片段。对结果进行强力过滤的引擎可能会降低其有效性。
提示工程开销：构建有效的评估标准仍需人工洞察；自动化生成评估标准仍是一个未解决的挑战。
威胁范围：研究聚焦于“知识密集型”危害（例如指令）。其他类别，如个人数据泄露或社会操纵，尚未被全面探讨。
缓解措施验证：虽然作者提出了对策，但尚未在大规模生产环境中进行测试。未来工作应对防御流水线进行基准评估，以应对相同的攻击套件。

通过揭示网络搜索集成的隐藏风险，SearchAttack 推动社区朝着更稳健、多层次的安全架构迈进，为下一代 AI 助手奠定基础。

作者

Yu Yan
Sheng Sun
Mingfeng Li
Zheming Yang
Chiwei Zhu
Fei Ma
Benfeng Xu
Min Liu

论文信息

arXiv ID: 2601.04093v1
分类: cs.CL
发布时间: 2026年1月7日
PDF: 下载 PDF

[Paper] SearchAttack：Red-Teaming LLMs 对抗真实世界威胁的不安全的网络信息检索任务

Overview

关键贡献

Methodology

结果与发现

Practical Implications

局限性与未来工作

作者

论文信息

相关文章

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] 链接证据：面向深度搜索代理的鲁棒强化学习与引用感知评分奖励

[Paper] 不要破坏缓存：对 Prompt Caching 在长时程 Agentic 任务的评估

[Paper] 思维的分子结构：绘制长Chain-of-Thought推理的拓扑