[Paper] 学习何时行动或拒绝:为安全的多步工具使用保护Agentic Reasoning模型
发布: (2026年3月4日 GMT+8 01:59)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.03205v1
请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。
概述
本文介绍了 MOSAIC,一种后训练框架,旨在教会具备代理能力的语言模型(能够规划、调用外部工具并执行多步骤操作的 LLM)何时行动、何时拒绝。通过将安全推理显式地纳入推理循环,MOSAIC 大幅降低了有害行为,同时保留了模型执行有用工具驱动任务的能力。
关键贡献
- Plan‑Check‑Act/Refuse Loop – 将推理重新构建为三个阶段,插入专用的安全检查步骤,能够将拒绝作为一等操作输出。
- Preference‑Based RL for Safety – 使用成对轨迹比较而非标量奖励,使模型能够学习细微的安全区分,而无需大量轨迹级标签。
- Zero‑Shot Generalization – 展示了 MOSAIC 在三种不同模型系列(Qwen2.5‑7B、Qwen3‑4B‑Thinking、Phi‑4)以及广泛的分布外基准(有害提示、提示注入攻击、良性工具使用、跨域隐私泄漏)中的有效性。
- Empirical Gains – 实现了有害行为最高 50 % 的降低、对注入攻击的拒绝率提升 >20 %,以及可衡量的隐私泄漏削减,同时在良性任务上保持或提升性能。
方法论
-
显式安全推理
- 每个推理步骤被拆分为:
- 计划 – 模型生成一个高层次的计划(例如,“获取用户电子邮件,然后发送报告”)。
- 检查 – 安全模块评估该计划,推理潜在风险(例如,“访问电子邮件可能泄露凭证”)。
- 执行或拒绝 – 如果检查通过,模型继续调用工具;否则返回拒绝响应。
- 每个推理步骤被拆分为:
-
通过基于偏好的强化学习(类似 RLHF)进行学习
- 与其为每个中间步骤标记“安全”或“不安全”,作者收集整个轨迹的 成对比较(一个安全,一个不安全)。
- 训练奖励模型预测更受偏好的轨迹,捕捉标量奖励遗漏的细微安全信号。
- 然后使用该学习到的奖励,通过 PPO(近端策略优化)微调代理,鼓励其生成能够通过安全检查的计划。
-
零样本评估协议
- 无需额外的特定任务微调;MOSAIC 作为后处理层应用于预训练模型之上。
- 基准包括:
- 有害任务(例如,钓鱼指令)。
- 提示注入(试图绕过安全的对抗性提示)。
- 良性工具使用(例如,计算器、网页搜索)。
- 隐私泄露(跨域查询可能暴露个人数据)。
结果与发现
| 指标 | 基线 | MOSAIC(平均) |
|---|---|---|
| 有害行为率 | 100 %(最坏情况) | ↓ ≈ 50 % |
| 对注入攻击的拒绝率 | 30 % | ↑ > 20 %(≈ 总计 50 %) |
| 隐私泄露事件 | 12 % | ↓ ≈ 40 % |
| 对良性工具任务的成功率 | 85 % | ≈ 85‑90 %(无下降,略有提升) |
- 安全收益保持一致,在所有三种模型系列中均如此,表明 MOSAIC 的设计与模型无关。
- 拒绝成为可用工具:模型学会说“我无法帮助您”,而不是尝试有风险的操作。
- 良性性能得以保留:额外的安全检查并未明显减慢或降低正常工具的使用。
实际影响
- 企业 AI 助手 – 公司可以将现有的基于 LLM 的代理(例如代码助手、客服机器人)与 MOSAIC 包装在一起,自动阻止危险的工具调用(文件读取、凭证使用),而无需重写底层模型。
- 合规监管 – 通过提供可审计的“检查”步骤,MOSAIC 有助于满足 GDPR 等标准或行业特定的安全规定,这些规定要求明确的拒绝处理。
- 开发者工具 – 开源库可以将 MOSAIC 作为即插即用的安全层公开,使开发者能够将“计划‑检查‑执行”流水线添加到任何集成工具的 LLM(例如 LangChain、Auto‑GPT)。
- 降低攻击面 – 通过安全检查评估计划的意图而非仅仅表面文本,能够缓解提示注入和对抗性工具反馈的问题。
- 可扩展对齐 – 基于偏好的强化学习避免了对每一步进行详尽标注的需求,使得在多个领域对大规模代理进行对齐成为可能。
限制与未来工作
- Preference Data Quality – 该方法依赖高质量的成对比较;噪声或有偏的偏好可能传播不良的安全启发式。
- Latency Overhead – 添加单独的安全检查会引入额外的推理步骤,在对延迟敏感的应用中可能会显著。
- Domain‑Specific Nuances – 虽然 MOSAIC 通用性良好,但某些专业领域(例如医学诊断)可能需要超出通用检查的自定义安全谓词。
- Future Directions – 作者建议探索 hierarchical 安全检查(多层推理),将 formal verification 集成到工具 API 中,并将框架扩展到多代理协作场景。
作者
- Aradhye Agarwal
- Gurdit Siyan
- Yash Pandya
- Joykirat Singh
- Akshay Nambi
- Ahmed Awadallah
论文信息
- arXiv ID: 2603.03205v1
- 分类: cs.CL
- 发布日期: 2026年3月3日
- PDF: 下载 PDF