[Paper] SafeGen-LLM：提升机器人系统任务规划中的安全泛化

发布: 3天前 (2026年2月28日 GMT+8 02:06)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.24235v1

Overview

论文介绍了 SafeGen‑LLM，这是一类经过专门训练以生成安全、约束感知的机器人任务计划的大型语言模型。通过将形式化安全规范与现代 LLM 微调技术相结合，作者展示了语言模型不仅能够编写语法正确的计划，还能遵守其从未见过的安全规则——这一能力有望弥合可扩展的 AI 规划与现实机器人对严格可靠性的需求之间的差距。

关键贡献

多域安全基准：一个全面的 PDDL3（Planning Domain Definition Language 3）套件，覆盖多个机器人领域，每个领域都标注了明确的安全约束。
两阶段后训练流水线：
1. 监督微调（SFT），在经过筛选的符合约束的计划数据集上进行微调，以教授模型规划的语法和语义。
2. 组相对策略优化（GRPO），一种强化学习风格的微调方法，利用从形式化验证中得到的细粒度奖励机来强制安全，并采用课程学习应对复杂任务。
安全泛化能力：展示了在训练数据中未出现的新颖安全属性的满足能力，适用于 PDDL 和自然语言输入。
实证优势：在所有基准领域的安全指标和整体计划质量上，均优于领先的专有基线（例如基于 GPT‑4 的规划器、经典启发式规划器）。

方法论

基准构建 – 作者构建了一套多样化的规划问题（例如，仓库导航、协作装配、无人机配送），使用 PDDL3 表示，每个问题都配有一组安全谓词（碰撞避免、能量限制、时间约束）。
监督微调 (SFT) – 在一个安全计划的数据集上对大型预训练语言模型（例如 Llama‑2）进行微调。此阶段让模型学习 PDDL 的语法以及可行机器人动作的典型结构。
奖励机设计 – 对每个安全谓词，构建一个确定性有限状态机（“奖励机”），用于跟踪生成的计划是否违反规则，并在违规的确切步骤给予负奖励。
组相对策略优化 (GRPO) –
- 组建 – 将计划按难度（例如约束数量）进行聚类。
- 相对优势 – 相对于组的平均表现计算策略梯度，在某些任务本质更难时稳定学习。
- 课程学习 – 训练从简单领域开始，逐步引入更多约束，使模型能够自举其安全推理能力。
评估 – 最终模型 SafeGen‑LLM 在未见领域和未见安全约束上进行测试，衡量 安全满足率（从未触发违规的计划比例）和 计划最优性（完成时间、动作数量）。

结果与发现

指标	SafeGen‑LLM	GPT‑4 Planner	Classical Heuristic Planner
安全满意度（已见约束）	96.8 %	71.2 %	84.5 %
安全满意度（未见约束）	89.3 %	42.7 %	61.4 %
平均计划长度（步数）	1.07 × optimal	1.23 × optimal	1.15 × optimal
推理延迟（每个问题）	~0.45 s	~0.38 s	~0.12 s

关键要点

安全泛化：即使安全规则是新颖的，SafeGen‑LLM 仍保持高安全合规性，证实 GRPO 阶段成功内化了安全的原则而非记忆具体约束。
竞争性效率：虽然不如纯启发式规划器快，但基于 LLM 的方法保持在亚秒级延迟，使其在许多离线或半在线规划流水线中可行。
对输入模态的鲁棒性：同一模型可以解析原始自然语言任务描述并输出正确的 PDDL 计划，为更直观的人机交互打开了大门。

实际意义

更安全的自主车队 – 仓库机器人或送货无人机可以依赖单一的 LLM 服务生成任务调度，自动遵守新添加的安全策略（例如临时禁飞区），无需对整个系统重新训练。
快速原型开发 – 工程师可以用普通英语描述新的机器人任务，立即获得经过安全检查的计划，并专注于低层控制，而不是手工编写特定领域的规划器。
法规合规 – 在奖励机中编码的形式化安全约束提供审计轨迹；开发者可以追踪计划满足或违反了哪条规则，从而简化认证过程。
混合规划架构 – SafeGen‑LLM 可以作为高层规划器，将安全子目标提供给现有的运动规划或强化学习控制器，结合 LLM 的可扩展性和低层控制器的精确性。

限制与未来工作

对极大规模领域的可扩展性 – 当前基准在每个问题上最多只支持几十个动作；若扩展到数百个动作，可能会增加推理时间和内存占用。
对奖励机设计的依赖 – 为每个新领域制定形式化安全规范仍需专家参与；若能自动化此步骤，将扩大适用范围。
真实世界验证 – 实验仅限于模拟环境；将该方法迁移到实际机器人（存在传感器噪声、执行延迟等）仍是一个未解挑战。
可解释性 – 虽然模型遵守安全约束，但未能提供人类可读的决策依据；未来工作可以加入事后解释模块。

结论：SafeGen‑LLM 展示了在形式化安全奖励和课程学习的引导下，大型语言模型能够成为安全关键机器人领域的可信规划器——这是一项迈向更可靠、AI 驱动自动化的激动人心的进展。

作者

Jialiang Fan
Weizhe Xu
Mengyu Liu
Oleg Sokolsky
Insup Lee
Fangxin Kong

论文信息

arXiv ID: 2602.24235v1
分类: cs.RO, cs.AI
出版日期: 2026年2月27日
PDF: 下载 PDF

[Paper] SafeGen-LLM：提升机器人系统任务规划中的安全泛化

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Mode Seeking 与 Mean Seeking 相结合，实现快速长视频生成

[Paper] LLM 能从自己的话语中受益吗？

[Paper] 驯服动量：通过低秩近似重新思考优化器状态

[论文] 记忆缓存：RNNs with 增长记忆