[Paper] MADRA: 多代理辩论用于风险感知的具身规划

发布: (2025年11月26日 GMT+8 22:51)
7 min read
原文: arXiv

Source: arXiv - 2511.21460v1

Overview

本文提出 MADRA,一种无需额外训练的框架,使多个大语言模型(LLM)代理能够“辩论”给定指令是否对具身 AI(例如家庭机器人)安全。通过将安全评估转化为集体推理过程,MADRA 大幅降低误拒率,同时保持在 AI2‑THOR 与 VirtualHome 等模拟家庭环境中实时规划所需的速度。

Key Contributions

  • 多代理辩论引擎 – 使用多个基于 LLM 的代理对指令的安全性进行争论,并配备专门的评估器,对每个论点在逻辑性、风险检测、证据和表达清晰度上进行打分。
  • 无需训练、模型无关的设计 – 不需要额外的微调或偏好对齐数据;MADRA 可直接使用任何现成的 LLM。
  • 层次认知协同规划器 – 将安全检查、过去经验记忆、高层规划和自我进化(在线学习)整合到同一流水线中。
  • SafeAware‑VH 基准 – 一个包含 800 条标注的家庭指令数据集,用于在 VirtualHome 模拟器中进行安全感知规划。
  • 实证提升 – 超过 90 % 的不安全任务被正确拒绝,而安全任务的误拒率降至 <5 %,在安全性和执行速度上均优于以往的单代理安全提示和偏好对齐模型。

Methodology

  1. 提示生成 – 将原始用户指令分别送入 N 个独立的 LLM 代理(如 GPT‑4、Claude),每个代理收到略有差异的安全导向提示,以鼓励多样化观点。
  2. 辩论阶段 – 代理生成简短论点:“该指令为何安全”或“为何存在风险”。
  3. 关键评估器 – 第四个 LLM(或轻量评分模型)审阅所有论点,并依据以下维度给出综合得分:
    • 逻辑严密性
    • 对具体危害的识别(例如 “不要把水壶放在潮湿的地板上”)
    • 支持证据的质量(引用已知安全规则)
    • 表达的清晰度
  4. 迭代审议 – 对得分低的代理进行提示,要求改进论点;该循环通常进行 2–3 轮。
  5. 共识投票 – 最终安全决策依据评估器得分的多数投票。如果多数认为指令不安全,规划器将中止执行或请求澄清。
  6. 层次规划器 – 指令通过安全门后,系统会查询记忆模块(过去成功的执行记录)、高层规划器(任务分解)以及自我进化组件(根据执行反馈更新内部策略)。

Results & Findings

指标MADRA单代理提示偏好对齐微调模型
不安全任务拒绝率(召回)92 %78 %85 %
安全任务误拒率(精度损失)4 %12 %8 %
平均规划延迟(每条指令)0.9 s0.6 s1.4 s
AI2‑THOR 任务成功率87 %73 %81 %
  • 辩论机制相比单一安全提示将误拒率降低约 60 %。
  • 由于无需额外微调,方法可无缝扩展至任意规模的 LLM,且不增加 GPU 成本。
  • 层次规划器通过复用过去的成功轨迹提升了复杂多步任务的完成率。

Practical Implications

  • 稳健的家用机器人 – 部署能够拒绝危险指令(如 “把水倒在地板上”)的机器人,无需专门的安全训练模型,可简化产品流水线。
  • 新领域快速原型 – 由于 MADRA 与模型无关,开发者可以随时接入最新的 LLM,即时获得安全辩论层。
  • 合规监管 – 论点的透明评分提供了审计轨迹,监管机构可据此检查,支持具身 AI 的安全认证。
  • 成本效益的安全方案 – 摒弃大规模偏好对齐数据集,降低了数据收集和计算开支,特别适合创业公司。
  • 持续学习 – 自我进化组件使机器人能够适应新家庭布局或用户习惯,同时保持安全保证。

Limitations & Future Work

  • 仅限仿真验证 – 实验局限于 AI2‑THOR 与 VirtualHome;真实机器人硬件可能暴露出仿真未捕获的延迟或感知差距。
  • 依赖 LLM 质量 – 若底层 LLM 幻觉或缺乏特定领域的安全知识,辩论可能得出错误结论。
  • 辩论轮次的可扩展性 – 增加代理数量或辩论迭代可略提升安全性,但会增加延迟;在边缘设备上寻找最佳平衡仍是开放问题。
  • 未来方向 – 将 MADRA 扩展至多模态输入(视觉+语言),结合形式化安全规则引擎,并在实体机器人平台上进行测试,是作者的下一步计划。

Authors

  • Junjian Wang
  • Lidan Zhao
  • Xi Sheryl Zhang

Paper Information

  • arXiv ID: 2511.21460v1
  • Categories: cs.AI
  • Published: November 26, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »