[Paper] 学习何时行动或拒绝：为安全的多步工具使用保护Agentic Reasoning模型

发布: 2天前 (2026年3月4日 GMT+8 01:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.03205v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。

概述

本文介绍了 MOSAIC，一种后训练框架，旨在教会具备代理能力的语言模型（能够规划、调用外部工具并执行多步骤操作的 LLM）何时行动、何时拒绝。通过将安全推理显式地纳入推理循环，MOSAIC 大幅降低了有害行为，同时保留了模型执行有用工具驱动任务的能力。

Plan‑Check‑Act/Refuse Loop – 将推理重新构建为三个阶段，插入专用的安全检查步骤，能够将拒绝作为一等操作输出。
Preference‑Based RL for Safety – 使用成对轨迹比较而非标量奖励，使模型能够学习细微的安全区分，而无需大量轨迹级标签。
Zero‑Shot Generalization – 展示了 MOSAIC 在三种不同模型系列（Qwen2.5‑7B、Qwen3‑4B‑Thinking、Phi‑4）以及广泛的分布外基准（有害提示、提示注入攻击、良性工具使用、跨域隐私泄漏）中的有效性。
Empirical Gains – 实现了有害行为最高 50 % 的降低、对注入攻击的拒绝率提升 >20 %，以及可衡量的隐私泄漏削减，同时在良性任务上保持或提升性能。

显式安全推理
- 每个推理步骤被拆分为：
  1. 计划 – 模型生成一个高层次的计划（例如，“获取用户电子邮件，然后发送报告”）。
  2. 检查 – 安全模块评估该计划，推理潜在风险（例如，“访问电子邮件可能泄露凭证”）。
  3. 执行或拒绝 – 如果检查通过，模型继续调用工具；否则返回拒绝响应。
通过基于偏好的强化学习（类似 RLHF）进行学习
- 与其为每个中间步骤标记“安全”或“不安全”，作者收集整个轨迹的 成对比较（一个安全，一个不安全）。
- 训练奖励模型预测更受偏好的轨迹，捕捉标量奖励遗漏的细微安全信号。
- 然后使用该学习到的奖励，通过 PPO（近端策略优化）微调代理，鼓励其生成能够通过安全检查的计划。
零样本评估协议
- 无需额外的特定任务微调；MOSAIC 作为后处理层应用于预训练模型之上。
- 基准包括：
  - 有害任务（例如，钓鱼指令）。
  - 提示注入（试图绕过安全的对抗性提示）。
  - 良性工具使用（例如，计算器、网页搜索）。
  - 隐私泄露（跨域查询可能暴露个人数据）。

企业 AI 助手 – 公司可以将现有的基于 LLM 的代理（例如代码助手、客服机器人）与 MOSAIC 包装在一起，自动阻止危险的工具调用（文件读取、凭证使用），而无需重写底层模型。
合规监管 – 通过提供可审计的“检查”步骤，MOSAIC 有助于满足 GDPR 等标准或行业特定的安全规定，这些规定要求明确的拒绝处理。
开发者工具 – 开源库可以将 MOSAIC 作为即插即用的安全层公开，使开发者能够将“计划‑检查‑执行”流水线添加到任何集成工具的 LLM（例如 LangChain、Auto‑GPT）。
降低攻击面 – 通过安全检查评估计划的意图而非仅仅表面文本，能够缓解提示注入和对抗性工具反馈的问题。
可扩展对齐 – 基于偏好的强化学习避免了对每一步进行详尽标注的需求，使得在多个领域对大规模代理进行对齐成为可能。

Preference Data Quality – 该方法依赖高质量的成对比较；噪声或有偏的偏好可能传播不良的安全启发式。
Latency Overhead – 添加单独的安全检查会引入额外的推理步骤，在对延迟敏感的应用中可能会显著。
Domain‑Specific Nuances – 虽然 MOSAIC 通用性良好，但某些专业领域（例如医学诊断）可能需要超出通用检查的自定义安全谓词。
Future Directions – 作者建议探索 hierarchical 安全检查（多层推理），将 formal verification 集成到工具 API 中，并将框架扩展到多代理协作场景。