[Paper] 学习 Sim-to-Real 类人机器人行走只需 15 分钟

发布: 4天前 (2025年12月2日 GMT+8 02:55)

7 min read

原文: arXiv

Source: arXiv - 2512.01996v1

Overview

本文展示了一条出乎意料的快速流水线，用于让类人机器人学会行走、跑步，甚至模仿人类动作——在单个 RTX 4090 GPU 上仅用 15 分钟即可训练出完整的全身控制器。通过利用能够扩展到数千个并行仿真的离策略强化学习（RL）算法，作者表明高维类人机器人运动可以从“数天计算”转变为“数分钟训练”，并且仍能稳健地迁移到真实机器人上。

Key Contributions

FastSAC 与 FastTD3 配方：简单的离策略 RL 变体，在大规模并行（数千个环境）下仍保持稳定。
15 分钟端到端训练：在两款商用类人机器人（Unitree G1 与 Booster T1）上使用单个高端 GPU 完成演示。
强域随机化：在训练中加入动力学随机化、不平坦地形以及外部推力，使得策略能够抵御真实世界的扰动。
全身运动跟踪：同一流水线能够学习遵循人体动作捕捉数据的策略，为机器人表现力打开了大门。
开源发布：代码、预训练模型和视频演示均公开，可促进可复现性和社区扩展。

Methodology

大规模并行仿真 – 作者在 GPU 上启动数千个轻量级物理仿真（MuJoCo），每个环境使用各自的随机参数（质量、摩擦、地形高度等）。
离策略 RL 核心 – 对 Soft Actor‑Critic（SAC）和 Twin‑Delayed DDPG（TD3）进行少量稳定性改进：
- 极简奖励 shaping（主要惩罚跌倒并鼓励前进速度）。
- 为高吞吐量更新调优的梯度裁剪和目标网络平滑。
- 所有并行环境共享经验回放缓冲区，提高数据效率。
域随机化循环 – 每个回合开始时，仿真会采样一组新的动力学和地形参数，迫使策略学习鲁棒且可泛化的控制律。
策略部署 – 训练完成后，学习得到的神经网络（≈ 2 M 参数）在机器人 onboard 计算机上运行，以 100 Hz 的频率接收本体感知观测并输出关节力矩。

Results & Findings

机器人	训练时间	实际成功率	能够应对的扰动
Unitree G1	15 分钟	94 %（30 分钟测试中未出现跌倒）	随机推力最高 15 N，地形不平度 ±5 cm
Booster T1	15 分钟	91 %	同上，另加坡度最高 10°
动作跟踪（人体片段）	15 分钟	姿态跟随准确（平均关节误差 < 5°）	对传感器噪声具备鲁棒性

关键要点

训练速度比以往需要多 GPU 集群、数天时间的工作快了数个数量级。
鲁棒性直接来源于大量随机化；策略几乎不需要后期微调。
简洁取胜——极简的奖励设计避免了常见的脆弱手工 shaping，提升了迁移效果。

Practical Implications

快速原型——开发者可以在分钟级别迭代运动行为，显著缩短硬件‑在‑环开发周期。
成本高效的扩展——单张消费级 GPU 即可完成训练，使大规模 RL 研究对初创公司和高校实验室更易获取。
即插即用控制器——发布的策略可直接嵌入现有机器人栈（ROS2、Unitree SDK），集成工作量极小。
自适应机器人——由于策略已经在广泛的动力学范围内训练，可在不同机器人型号或硬件磨损后复用，无需重新训练。
人机交互——全身运动跟踪为机器人模仿人类手势或执行富表达任务（如助老护理、娱乐表演）提供了可能。

Limitations & Future Work

硬件限制——虽然训练只需单 GPU，但推理仍假设具备一定算力的 onboard 处理器；极低功耗平台可能需要模型压缩。
仿真保真度——该方法依赖 MuJoCo 的高速但近似物理；对高度柔顺硬件的机器人可能会暴露出仿真‑现实差距。
任务多样性——实验聚焦于 locomotion 与动作跟踪，向操控或多模态任务的扩展仍是未解之题。
安全保障——策略虽鲁棒但未经过形式化验证；未来工作可结合安全层控制器或基于学习的验证方法。

总体而言，本文展示了只要进行适当的算法调优并利用大规模并行仿真，就能在分钟而非数月内跨越高维类人机器人控制的“仿真‑现实鸿沟”，这对于在现场部署真正敏捷、可适应的机器人是一次令人振奋的进步。

Authors

Younggyo Seo
Carmelo Sferrazza
Juyue Chen
Guanya Shi
Rocky Duan
Pieter Abbeel

Paper Information

arXiv ID: 2512.01996v1
Categories: cs.RO, cs.AI, cs.LG
Published: December 1, 2025
PDF: Download PDF

[Paper] 学习 Sim-to-Real 类人机器人行走只需 15 分钟

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

相关文章

[Paper] 通用权重子空间假设

[Paper] 价值梯度引导用于流匹配对齐

[Paper] 基于多对比 MRI 的深度婴儿脑分割

[Paper] DraCo：Draft as CoT 用于 Text-to-Image 预览和稀有概念生成