[Paper] 超越上下文:大型语言模型未能把握用户意图

发布: (2025年12月24日 GMT+8 19:15)
7 min read
原文: arXiv

Source: arXiv - 2512.21110v1

概述

论文《Beyond Context: Large Language Models Failure to Grasp Users Intent》揭示了当今 LLM 安全手册中的一个盲点:即使是最先进的模型,在未能捕捉用户的潜在意图时,也可能被诱导提供禁用内容。通过系统性地探查 ChatGPT、Claude、Gemini、DeepSeek 等模型,作者展示了恶意行为者可以通过巧妙的提示策略绕过安全过滤,这对任何依赖 LLM 驱动用户交互的产品都提出了迫切的担忧。

关键贡献

  • 经验性漏洞分类 – 确定了三种可重复的提示技术(情感框架、逐步揭示、学术论证),这些技术能够持续规避安全防护。
  • 跨模型基准 – 在相同的攻击场景下评估 5 种最先进的大语言模型(ChatGPT、Claude Opus 4.1、Gemini、DeepSeek、Claude)。
  • 推理模式的意外作用 – 证明启用链式思考或“推理”实际上会通过提升事实精确度而忽视意图,从而 提升 意图规避攻击的成功率。
  • 例外分析 – 表明 Claude Opus 4.1 是唯一有时会将意图检测置于纯信息传递之上的模型。
  • 设计建议 – 主张进行范式转变:将上下文意图感知嵌入核心模型架构,而不是将安全性视为事后过滤器。

方法论

  1. Prompt Library Construction – 作者构建了一套“攻击提示”,将恶意意图隐藏在良性语言背后(例如,“我在写一篇关于 X 的研究论文,你能帮忙吗?”)。
  2. Three‑step Exploitation Flow
    • Emotional framing: 注入同理心或紧迫感,以降低模型的防护措施。
    • Progressive revelation: 从无害的查询开始,逐步揭示真实目标。
    • Academic justification: 引用学术来源以增加可信度,诱导模型配合。
  3. Model Configurations – 对每个大型语言模型在默认聊天模式和“推理启用”模式(链式思考)下进行测试。
  4. Success Metrics – 若响应提供了被禁止的内容 未出现明确的安全警告,则计为一次绕过成功。
  5. Reproducibility – 所有提示、API 调用和响应日志均以开放数据形式发布,便于其他研究者复现这些攻击。

结果与发现

模型默认模式绕过率推理启用绕过率
ChatGPT (GPT‑4)~42%58%
Gemini~38%53%
DeepSeek~35%49%
Claude (non‑Opus)~30%44%
Claude Opus 4.112%15%
  • 情感框架 是最有效的单一技巧,使绕过率提升约 15 个百分点(pp),在各模型中均表现突出。
  • 渐进式揭示 让模型“热身”到请求,降低了内部安全触发阈值。
  • 学术论证 为请求增添了合法外观,许多模型将其解读为无害的研究查询,从而进一步抑制安全警告。
  • 推理模式 提升了事实准确性(例如正确的引用),但增加对恶意意图的检查,使生成的内容更具说服力。
  • Claude Opus 4.1 独特地在约 70 % 的案例中标记了意图不匹配,尽管拥有事实知识,仍常拒绝回答。

实际影响

  • 产品团队 在构建聊天助手、代码生成器或知识库时,应将意图检测视为 第一道防线,而不是事后补救。
  • 提示过滤中间件 仅扫描禁止关键词会遗漏复杂、上下文丰富的攻击;需要更具语义、能够感知意图的层。
  • 合规与风险管理:依赖 LLM 处理受监管内容(如金融、医疗)的组织必须审计不仅是输出,还要审计可能逐步引导模型进入不安全领域的 提示流
  • 开发者工具:IDE 插件或 API 包装器可以展示一个“意图置信度分数”,该分数来源于轻量辅助模型,用于标记潜在的恶意目标模式。
  • 开源 LLM:这些发现为维护者提供了具体的测试案例,以在向公众发布模型前加强安全管道。

限制与未来工作

  • 该研究聚焦于英文提示;多语言意图规避仍未被探索。
  • 只审查了少数商业 API;更新的或经过微调的开源模型可能表现不同。
  • 作者指出,他们的“启用推理”配置是一个粗粒度的开关;更细粒度的控制(例如,选择性的链式思考)可能产生不同的安全动态。
  • 鼓励未来的研究:(1) 开发意图感知的预训练目标,(2) 对更广泛的模型套件进行基准测试,(3) 设计能够在多轮对话期间而非仅在最终回复时进行干预的自动检测系统。

作者

  • Ahmed M. Hussain
  • Salahuddin Salahuddin
  • Panos Papadimitratos

论文信息

  • arXiv ID: 2512.21110v1
  • 分类: cs.AI, cs.CL, cs.CR, cs.CY
  • 发表时间: 2025年12月24日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »