[Paper] 学习何时行动或拒绝:为安全的多步工具使用保护Agentic Reasoning模型

发布: (2026年3月4日 GMT+8 01:59)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.03205v1

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。

概述

本文介绍了 MOSAIC,一种后训练框架,旨在教会具备代理能力的语言模型(能够规划、调用外部工具并执行多步骤操作的 LLM)何时行动、何时拒绝。通过将安全推理显式地纳入推理循环,MOSAIC 大幅降低了有害行为,同时保留了模型执行有用工具驱动任务的能力。

关键贡献

  • Plan‑Check‑Act/Refuse Loop – 将推理重新构建为三个阶段,插入专用的安全检查步骤,能够将拒绝作为一等操作输出。
  • Preference‑Based RL for Safety – 使用成对轨迹比较而非标量奖励,使模型能够学习细微的安全区分,而无需大量轨迹级标签。
  • Zero‑Shot Generalization – 展示了 MOSAIC 在三种不同模型系列(Qwen2.5‑7B、Qwen3‑4B‑Thinking、Phi‑4)以及广泛的分布外基准(有害提示、提示注入攻击、良性工具使用、跨域隐私泄漏)中的有效性。
  • Empirical Gains – 实现了有害行为最高 50 % 的降低、对注入攻击的拒绝率提升 >20 %,以及可衡量的隐私泄漏削减,同时在良性任务上保持或提升性能。

方法论

  1. 显式安全推理

    • 每个推理步骤被拆分为:
      1. 计划 – 模型生成一个高层次的计划(例如,“获取用户电子邮件,然后发送报告”)。
      2. 检查 – 安全模块评估该计划,推理潜在风险(例如,“访问电子邮件可能泄露凭证”)。
      3. 执行或拒绝 – 如果检查通过,模型继续调用工具;否则返回拒绝响应。
  2. 通过基于偏好的强化学习(类似 RLHF)进行学习

    • 与其为每个中间步骤标记“安全”或“不安全”,作者收集整个轨迹的 成对比较(一个安全,一个不安全)。
    • 训练奖励模型预测更受偏好的轨迹,捕捉标量奖励遗漏的细微安全信号。
    • 然后使用该学习到的奖励,通过 PPO(近端策略优化)微调代理,鼓励其生成能够通过安全检查的计划。
  3. 零样本评估协议

    • 无需额外的特定任务微调;MOSAIC 作为后处理层应用于预训练模型之上。
    • 基准包括:
      • 有害任务(例如,钓鱼指令)。
      • 提示注入(试图绕过安全的对抗性提示)。
      • 良性工具使用(例如,计算器、网页搜索)。
      • 隐私泄露(跨域查询可能暴露个人数据)。

结果与发现

指标基线MOSAIC(平均)
有害行为率100 %(最坏情况)↓ ≈ 50 %
对注入攻击的拒绝率30 %↑ > 20 %(≈ 总计 50 %)
隐私泄露事件12 %↓ ≈ 40 %
对良性工具任务的成功率85 %≈ 85‑90 %(无下降,略有提升)
  • 安全收益保持一致,在所有三种模型系列中均如此,表明 MOSAIC 的设计与模型无关。
  • 拒绝成为可用工具:模型学会说“我无法帮助您”,而不是尝试有风险的操作。
  • 良性性能得以保留:额外的安全检查并未明显减慢或降低正常工具的使用。

实际影响

  • 企业 AI 助手 – 公司可以将现有的基于 LLM 的代理(例如代码助手、客服机器人)与 MOSAIC 包装在一起,自动阻止危险的工具调用(文件读取、凭证使用),而无需重写底层模型。
  • 合规监管 – 通过提供可审计的“检查”步骤,MOSAIC 有助于满足 GDPR 等标准或行业特定的安全规定,这些规定要求明确的拒绝处理。
  • 开发者工具 – 开源库可以将 MOSAIC 作为即插即用的安全层公开,使开发者能够将“计划‑检查‑执行”流水线添加到任何集成工具的 LLM(例如 LangChain、Auto‑GPT)。
  • 降低攻击面 – 通过安全检查评估计划的意图而非仅仅表面文本,能够缓解提示注入和对抗性工具反馈的问题。
  • 可扩展对齐 – 基于偏好的强化学习避免了对每一步进行详尽标注的需求,使得在多个领域对大规模代理进行对齐成为可能。

限制与未来工作

  • Preference Data Quality – 该方法依赖高质量的成对比较;噪声或有偏的偏好可能传播不良的安全启发式。
  • Latency Overhead – 添加单独的安全检查会引入额外的推理步骤,在对延迟敏感的应用中可能会显著。
  • Domain‑Specific Nuances – 虽然 MOSAIC 通用性良好,但某些专业领域(例如医学诊断)可能需要超出通用检查的自定义安全谓词。
  • Future Directions – 作者建议探索 hierarchical 安全检查(多层推理),将 formal verification 集成到工具 API 中,并将框架扩展到多代理协作场景。

作者

  • Aradhye Agarwal
  • Gurdit Siyan
  • Yash Pandya
  • Joykirat Singh
  • Akshay Nambi
  • Ahmed Awadallah

论文信息

  • arXiv ID: 2603.03205v1
  • 分类: cs.CL
  • 发布日期: 2026年3月3日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »