[Paper] SafeGen-LLM:提升机器人系统任务规划中的安全泛化
发布: (2026年2月28日 GMT+8 02:06)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.24235v1
Overview
论文介绍了 SafeGen‑LLM,这是一类经过专门训练以生成安全、约束感知的机器人任务计划的大型语言模型。通过将形式化安全规范与现代 LLM 微调技术相结合,作者展示了语言模型不仅能够编写语法正确的计划,还能遵守其从未见过的安全规则——这一能力有望弥合可扩展的 AI 规划与现实机器人对严格可靠性的需求之间的差距。
关键贡献
- 多域安全基准:一个全面的 PDDL3(Planning Domain Definition Language 3)套件,覆盖多个机器人领域,每个领域都标注了明确的安全约束。
- 两阶段后训练流水线:
- 监督微调(SFT),在经过筛选的符合约束的计划数据集上进行微调,以教授模型规划的语法和语义。
- 组相对策略优化(GRPO),一种强化学习风格的微调方法,利用从形式化验证中得到的细粒度奖励机来强制安全,并采用课程学习应对复杂任务。
- 安全泛化能力:展示了在训练数据中未出现的新颖安全属性的满足能力,适用于 PDDL 和自然语言输入。
- 实证优势:在所有基准领域的安全指标和整体计划质量上,均优于领先的专有基线(例如基于 GPT‑4 的规划器、经典启发式规划器)。
方法论
- 基准构建 – 作者构建了一套多样化的规划问题(例如,仓库导航、协作装配、无人机配送),使用 PDDL3 表示,每个问题都配有一组安全谓词(碰撞避免、能量限制、时间约束)。
- 监督微调 (SFT) – 在一个安全计划的数据集上对大型预训练语言模型(例如 Llama‑2)进行微调。此阶段让模型学习 PDDL 的语法以及可行机器人动作的典型结构。
- 奖励机设计 – 对每个安全谓词,构建一个确定性有限状态机(“奖励机”),用于跟踪生成的计划是否违反规则,并在违规的确切步骤给予负奖励。
- 组相对策略优化 (GRPO) –
- 组建 – 将计划按难度(例如约束数量)进行聚类。
- 相对优势 – 相对于组的平均表现计算策略梯度,在某些任务本质更难时稳定学习。
- 课程学习 – 训练从简单领域开始,逐步引入更多约束,使模型能够自举其安全推理能力。
- 评估 – 最终模型 SafeGen‑LLM 在未见领域和未见安全约束上进行测试,衡量 安全满足率(从未触发违规的计划比例)和 计划最优性(完成时间、动作数量)。
结果与发现
| 指标 | SafeGen‑LLM | GPT‑4 Planner | Classical Heuristic Planner |
|---|---|---|---|
| 安全满意度(已见约束) | 96.8 % | 71.2 % | 84.5 % |
| 安全满意度(未见约束) | 89.3 % | 42.7 % | 61.4 % |
| 平均计划长度(步数) | 1.07 × optimal | 1.23 × optimal | 1.15 × optimal |
| 推理延迟(每个问题) | ~0.45 s | ~0.38 s | ~0.12 s |
关键要点
- 安全泛化:即使安全规则是新颖的,SafeGen‑LLM 仍保持高安全合规性,证实 GRPO 阶段成功内化了安全的原则而非记忆具体约束。
- 竞争性效率:虽然不如纯启发式规划器快,但基于 LLM 的方法保持在亚秒级延迟,使其在许多离线或半在线规划流水线中可行。
- 对输入模态的鲁棒性:同一模型可以解析原始自然语言任务描述并输出正确的 PDDL 计划,为更直观的人机交互打开了大门。
实际意义
- 更安全的自主车队 – 仓库机器人或送货无人机可以依赖单一的 LLM 服务生成任务调度,自动遵守新添加的安全策略(例如临时禁飞区),无需对整个系统重新训练。
- 快速原型开发 – 工程师可以用普通英语描述新的机器人任务,立即获得经过安全检查的计划,并专注于低层控制,而不是手工编写特定领域的规划器。
- 法规合规 – 在奖励机中编码的形式化安全约束提供审计轨迹;开发者可以追踪计划满足或违反了哪条规则,从而简化认证过程。
- 混合规划架构 – SafeGen‑LLM 可以作为高层规划器,将安全子目标提供给现有的运动规划或强化学习控制器,结合 LLM 的可扩展性和低层控制器的精确性。
限制与未来工作
- 对极大规模领域的可扩展性 – 当前基准在每个问题上最多只支持几十个动作;若扩展到数百个动作,可能会增加推理时间和内存占用。
- 对奖励机设计的依赖 – 为每个新领域制定形式化安全规范仍需专家参与;若能自动化此步骤,将扩大适用范围。
- 真实世界验证 – 实验仅限于模拟环境;将该方法迁移到实际机器人(存在传感器噪声、执行延迟等)仍是一个未解挑战。
- 可解释性 – 虽然模型遵守安全约束,但未能提供人类可读的决策依据;未来工作可以加入事后解释模块。
结论:SafeGen‑LLM 展示了在形式化安全奖励和课程学习的引导下,大型语言模型能够成为安全关键机器人领域的可信规划器——这是一项迈向更可靠、AI 驱动自动化的激动人心的进展。
作者
- Jialiang Fan
- Weizhe Xu
- Mengyu Liu
- Oleg Sokolsky
- Insup Lee
- Fangxin Kong
论文信息
- arXiv ID: 2602.24235v1
- 分类: cs.RO, cs.AI
- 出版日期: 2026年2月27日
- PDF: 下载 PDF