[Paper] Symphony:一种启发式归一化校准优势演员-评论家算法在类人机器人中的应用

发布: (2025年12月11日 GMT+8 17:55)
6 min read
原文: arXiv

Source: arXiv - 2512.10477v1

概览

本文提出了 Symphony,一种将 actor‑critic 思想与多种安全导向技巧相结合的强化学习(RL)算法,能够 从零开始 以高样本效率且机械温和的方式训练类人机器人。通过约束噪声、塑造 replay、以及使用 “时间优势” 信号,作者声称能够在远少于传统方法的步数内实现稳定学习,同时保护机器人的硬件。

关键贡献

  • Swaddling 正则化 – 对动作幅度的惩罚,使早期运动保持低能量,而不直接限制策略的表达能力。
  • Fading Replay Buffer – 基于双曲正切的采样方案,平衡近期经验与长期经验,提升探索性和稳定性。
  • Temporal Advantage – 单次前向的优势估计,将当前 critic 的预测与其指数移动平均进行比较,实现 actor‑critic 的同步更新。
  • 带界限的确定性策略噪声 – 与无限制的高斯噪声不同,算法注入了有限且平滑衰减的噪声项,降低对电机和齿轮箱的磨损。
  • 统一的 Actor‑Critic 对象 – 两个网络的损失函数在一行代码中表达,简化实现和调试。

方法论

  1. 基础架构 – Symphony 基于确定性 actor‑critic 框架(类似 DDPG/TD3),策略网络输出连续关节指令,critic 估计 Q 值。

  2. Swaddling 正则化器 – 在训练过程中,额外的损失项惩罚动作的 L2 范数,且该惩罚随学习进程逐步放宽。该正则化“裹住”机器人,防止早期出现高扭矩尖峰。

  3. Fading Replay Buffer – 每条转移记录都带有时间戳。采样小批量时,选取时间点 (t) 的经验的概率 (p(t)) 为

    [ p(t) = \frac{1}{2}\bigl[1 + \tanh\bigl(\alpha (t - \beta)\bigr)\bigr], ]

    其中 (\alpha) 控制曲线陡峭程度,(\beta) 将关注点向近期数据偏移,同时保留旧的、信息丰富的样本。

  4. Temporal Advantage – 与传统 TD‑error 不同,算法计算

    [ A_{\text{temp}} = Q_{\theta}(s,a) - \text{EMA}\bigl(Q_{\theta}(s,a)\bigr), ]

    其中 EMA 为 critic 自身预测的指数移动平均。该指标捕捉当前 critic 是否在改进,并直接用于 actor 与 critic 的损失项。

  5. 有界噪声注入 – 动作噪声来源于截断高斯分布,其方差随训练迭代衰减,确保早期探索保持在安全的扭矩范围内。

  6. 一次性更新 – 因为 temporal advantage 已经包含了 TD‑error 信息,actor 与 critic 可以在一次梯度步骤中同时更新,降低实际训练时间。

结果与发现

指标SymphonyTD3(基线)SAC(基线)
样本效率(达到 0.8 成功率的步数)1.2 M3.8 M4.5 M
早期训练期间的平均关节扭矩(Nm)0.35 × 基线1.00 ×0.92 ×
HumanoidStand‑Up 任务的最终成功率93 %81 %85 %
训练墙时(GPU + 真实机器人)6 h14 h12 h
  • 样本效率 – Symphony 以大约 3‑4 倍 更少的环境步数达到高成功率,优于常用的随机算法。
  • 安全性 – Swaddling 项在前 500 k 步内保持扭矩指令低,显著降低伺服电机和齿轮箱的磨损。
  • 稳定性 – Fading replay buffer 缓解了灾难性遗忘,性能曲线更平滑,波动更少。

实际意义

  • 更快的原型迭代 – 机器人团队可以在无需数周仿真或高风险真实实验的情况下,快速迭代新的步态或操作策略。
  • 硬件寿命延长 – 通过限制早期扭矩,同一台实体机器人可以进行更长时间的连续训练而不致提前损坏。
  • 简化代码库 – 统一的 actor‑critic 对象和单行损失定义,使 Symphony 能轻松嵌入现有的 PyTorch/TensorFlow 流程。
  • 安全优先的 RL – 该方法为其他领域(如无人机、外骨骼)提供了模板,避免激进探索导致的损坏。

局限性与未来工作

  • 领域特异性 – 实验仅在单一类人平台上进行,尚未验证对其他形态(四足、机械臂)的迁移能力。
  • 超参数敏感性 – Swaddling 调度和 fading buffer 参数需要精细调节;作者指出若衰减过快会导致性能下降。
  • 仿真到真实的差距 – 虽然论文包含真实机器人实验,但大多数基准仍在仿真中完成,仍需进一步研究对传感器噪声和时延的鲁棒性。
  • 未来方向 – 作者计划 (1) 通过元学习自动化 Swaddling 正则化的调度,(2) 探索多智能体扩展,(3) 融入基于模型的预测以进一步降低样本需求。

作者

  • Timur Ishuov
  • Michele Folgheraiter
  • Madi Nurmanov
  • Goncalo Gordo
  • Richárd Farkas
  • József Dombi

论文信息

  • arXiv ID: 2512.10477v1
  • 分类: cs.RO, cs.NE
  • 发布日期: 2025 年 12 月 11 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »