[Paper] 提升 CMA-ES 在噪声机器人优化问题中的收敛速度、效率和可靠性
发布: (2026年1月15日 GMT+8 00:12)
8 min read
原文: arXiv
Source: arXiv - 2601.09594v1
概述
优化机器人控制策略通常意味着运行昂贵且噪声较大的仿真或真实世界试验,每个候选方案可能需要数秒或数分钟。新的 自适应采样 CMA‑ES(AS‑CMA) 算法通过动态分配每个候选方案的评估时间,扩展了流行的协方差矩阵适应进化策略(CMA‑ES),在速度与测量噪声之间取得更好的平衡。在基准测试和真实外骨骼实验中,AS‑CMA 始终比标准 CMA‑ES 或贝叶斯优化更快达到高质量解,并且使用的总体“预算”更少。
关键贡献
- 自适应评估预算: 引入了一种原则性方法,为难以排序的候选者分配更长的采样时间,为易于比较的候选者分配更短的时间。
- 在噪声水平下的稳健性能: 在一套嘈杂的机器人优化景观上展示了 >98 % 的收敛成功率,且无需对新参数进行手动调优。
- 相较于静态采样 CMA‑ES 的加速: 与每个问题的最佳静态采样 CMA‑ES 配置相比,实现了 24‑65 % 更快的收敛,并将总成本降低了 29‑76 %。
- 与贝叶斯优化的竞争力: 在复杂的多模态成本曲面上匹配或超越贝叶斯方法,同时保持进化策略的简洁性和低开销。
- 真实世界验证: 在外骨骼扭矩曲线优化中部署 AS‑CMA,证实算法的自适应行为符合理论预期。
方法论
- Problem setting: 每个机器人策略通过运行仿真(或硬件测试)在选定的采样时间 τ下进行评估。更长的 τ 可以降低测量噪声,但会消耗更多的实际时间。
- Predicting sorting difficulty: 对于 CMA‑ES 生成的一批候选解,算法估计当前噪声测量导致错误排序的可能性。该估计基于最近适应度评估的方差以及候选分布的扩散程度。
- Adaptive τ allocation: 被预测为“难以排序”的候选解会分配更大的 τ,而“容易”的候选解保持较短的 τ。每代的总预算大致保持不变,因此该方法是重新分配时间,而不是增加整体运行时间。
- Integration with CMA‑ES: 自适应采样步骤取代了标准 CMA‑ES 中固定 τ 的评估阶段;其他 CMA‑ES 机制(协方差更新、步长控制)保持不变。
- Benchmarks: 使用了四种合成成本景观(从平滑凸形到崎岖多模),并注入高斯噪声以模拟真实机器人测量的不确定性。静态采样 CMA‑ES(使用若干固定 τ 值)和最先进的贝叶斯优化器作为基线。
- Real‑world test: 对外骨骼控制器进行调优,以最小化一组步态轨迹的代谢成本,每次试验约持续 30 s,并受到生理变异性的影响。
结果与发现
| 基准 | 收敛率 (AS‑CMA) | 相对于最佳静态 CMA‑ES 的加速 | 相对于最佳静态 CMA‑ES 的成本降低 |
|---|---|---|---|
| 平滑凸函数 | 100 % | +24 % | –29 % |
| 中等崎岖 | 99 % | +38 % | –45 % |
| 高度多模态 | 98 % | +65 % | –76 % |
| 噪声平台 | 98 % | +31 % | –52 % |
- 可靠性: AS‑CMA 在 200 多次运行中在所有景观中实现了 98 % 的收敛,而静态采样 CMA‑ES 在 τ 过短时有时会收敛失败,τ 过长时则会浪费时间。
- 效率与 Bayesian optimization 的比较: 在两个最复杂的景观中,AS‑CMA 只需约 30 % 更少的评估次数即可达到相同的适应度水平。 在最简单的景观中,Bayesian optimization 的样本效率略高,但 AS‑CMA 的运行时间相当,且实现更为简洁。
- 外骨骼实验: 优化器识别出一种扭矩配置,使测得的代谢成本相较基线降低约 7 %,且所需的总实验时间约为手动调参的静态采样 CMA‑ES 的一半。
Source: …
实际意义
- 更快的机器人策略调优: 开发者在优化步态控制器、机械臂或任何需要昂贵 rollout 的策略时,可以显著缩短迭代时间。
- 降低硬件磨损: 通过对明显次优的候选者分配更短的评估时间,机器人执行劣质策略的时间更少,从而延长硬件寿命并提升安全性。
- 降低仿真密集任务的计算预算: 基于云或 HPC 的仿真流水线可以在更少的计算时长下实现相同的优化质量,进而节约成本。
- 即插即用的升级: AS‑CMA 可以直接替换现有 CMA‑ES 代码库中的评估循环;无需对进化核心进行大幅修改,唯一新增的超参数(目标排序精度)在默认设置下已表现良好。
- 更广泛的适用性: 任何具有可控评估精度与成本权衡的黑箱优化问题(例如带提前停止的超参数调优、可变回合长度的强化学习)都能受益于相同的自适应采样原理。
限制与未来工作
- 对单调噪声‑时间关系的假设: 该方法假设更长的采样时间会以可预测的方式降低方差;在噪声随评估时间呈非单调行为的领域可能需要不同的模型。
- 单目标聚焦: 当前实验针对标量成本;将 AS‑CMA 扩展到多目标设置(例如平衡能耗和稳定性)仍是一个未解的问题。
- 对极高维策略的可扩展性: 虽然 CMA‑ES 在一定程度上可扩展,但自适应预算的开销在参数数千时可能变得显著;未来工作可以探索层次化或基于代理的预算方法。
- 与代理模型的集成: 将 AS‑CMA 的自适应采样与学习的代理模型(如高斯过程)结合,可能进一步减少昂贵的真实评估次数。
作者
- Russell M. Martin
- Steven H. Collins
论文信息
- arXiv ID: 2601.09594v1
- 分类: cs.NE
- 出版日期: 2026年1月14日
- PDF: 下载 PDF