[Paper] CRoSS:一个用于可扩展强化学习的持续机器人仿真套件,具备高任务多样性和真实物理仿真

发布: (2026年2月5日 GMT+8 02:54)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.04868v1

(请提供需要翻译的正文内容,我将按照要求进行简体中文翻译并保留原有的格式。)

概述

本文介绍了 CRoSS,一个新的基准套件,使研究人员能够在逼真的模拟机器人上训练和评估持续强化学习(CRL)代理。通过利用 Gazebo 物理引擎和多种传感器模态,CRoSS 提供了一个高保真、极具可扩展性的平台,用于研究代理如何在学习任务序列时不遗忘先前的技能。

关键贡献

  • 两个完整仿真的机器人平台 – 一个差分驱动机器人(激光雷达、摄像头、碰撞传感器)和一个7自由度机械臂,覆盖移动机器人和操作领域。
  • 任务多样性大 – 通过系统化改变视觉纹理、竞技场布局和物体属性,产生数百种不同的循线、推物体和达标任务。
  • 机械臂的双层控制 – 高层笛卡尔目标(对应 Continual World 基准)和低层关节角度指令,另外还有仅运动学模式,在不需要物理仿真时可快约100倍运行。
  • 容器化、可复现的设置 – 使用 Apptainer(前身为 Singularity)镜像,包含所有依赖,支持在 Linux、HPC 集群或云虚拟机上一键启动。
  • 基线结果 – 在完整任务套件上提供经典强化学习算法(DQN、PPO、SAC)的性能数据,为未来的持续强化学习工作提供参考基准。

方法论

  1. 仿真环境 – CRoSS 基于开源的 Gazebo 仿真器,提供精确的刚体动力学、接触建模和传感器噪声。两个机器人通过 URDF 文件定义,并配备插件,将原始传感器流(例如激光雷达点云、RGB 图像)暴露给学习代理。

  2. 任务生成 – 对每个机器人,参数网格控制竞技场大小、线路曲率、物体形状、光照和纹理等方面。对该网格进行采样即可生成任务序列,代理必须按顺序掌握这些任务。

  3. 持续学习协议 – 代理在一个任务上训练直至达到性能阈值,然后在不重置策略网络的情况下切换到下一个任务。会记录 平均回报遗忘率前向迁移 等指标。

  4. 基线算法 – 作者实现了三种现成的强化学习方法:

    • DQN(基于价值的离散动作,适用于轮式机器人)
    • PPO(策略梯度,连续动作,适用于机械臂)
    • SAC(软演员-评论家,连续动作并带有熵正则化)

    每种算法使用适度的神经网络结构(2–3 层隐藏层,每层 256 单元)和标准超参数,以便在各任务之间进行公平比较。

  5. 快速路径运动学模式 – 对于不需要触觉反馈的操作任务,可以绕过物理引擎。机械臂的正向运动学通过解析方式计算,将每步仿真时间从约 30 ms 降至约 0.3 ms,这对大规模超参数搜索非常有用。

结果与发现

机器人基准算法最终平均回报遗忘(5 任务后 Δ)
轮式直线跟随(100 种变体)DQN0.78(归一化)0.12
轮式推物体(80 种变体)DQN0.710.18
手臂(高层)目标到达(50 种变体)PPO0.840.09
手臂(低层)目标到达(50 种变体)SAC0.880.07
  • 学习曲线 显示,智能体在前几个任务上能够快速适应,但随着序列的推进,早期任务的性能会出现适度下降——这是一种典型的灾难性遗忘现象。
  • 策略梯度方法(PPO、SAC) 在连续控制任务上优于基于价值的 DQN,并且它们的遗忘率也更低。
  • 仅运动学模式 在保持手臂学习性能相同的情况下,将实际训练时间缩短约 100 倍,证实对于某些连续强化学习研究来说,完整的物理仿真并非总是必需的。

实际意义

  • 机器人开发者 可以将 CRoSS 作为持续学习管道的即插即用测试平台,在部署到真实硬件之前进行试验,减少在实体机器人上的昂贵试错成本。
  • 仿真到真实的迁移 受益于真实的传感器模型(相机噪声、激光雷达掉线)和物理引擎,使得在 CRoSS 中训练的策略成为仿真到真实微调的强大起点。
  • 新 CRL 算法的基准测试 变得更加透明:容器化环境消除了“在我的机器上可以工作”的问题,任务套件的参数化让团队能够设计自定义课程(例如课程学习、元学习)。
  • 边缘计算研究 受益于快速运动学模式,使得对轻量模型的快速迭代成为可能,最终这些模型可以运行在嵌入式机器人控制器上。

限制与未来工作

  • 仿真保真度与速度的权衡:虽然 Gazebo 提供了高度真实感,但其速度仍慢于纯运动学模拟器,这可能限制在物理负载较重的任务上进行大规模超参数搜索。
  • 传感器多样性仍受限:当前套件支持激光雷达、RGB 相机和碰撞传感器;若加入触觉或力/扭矩传感器,将能拓宽在更灵巧的操作场景中的适用性。
  • 任务顺序是固定的:在所呈现的实验中任务顺序是预设的,探索自适应课程或对抗性任务序列可能揭示连续学习动态的更深层次洞见。
  • 真实世界验证留待未来工作——将 CRoSS 策略与实际机器人部署相结合,以确认基准的实际相关性,将是关键。

作者

  • Yannick Denker
  • Alexander Gepperth

论文信息

  • arXiv ID: 2602.04868v1
  • 分类: cs.LG, cs.AI
  • 发表时间: 2026年2月4日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……