[Paper] PolaRiS：可扩展的 Real-to-Sim 评估用于通用机器人策略

发布: 1个月前 (2025年12月19日 GMT+8 02:49)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.16881v1

概览

本文介绍了 PolaRiS，一个将真实世界场景的短视频捕获转化为高保真模拟环境的框架，从而实现快速、大规模的“真实到模拟”评估通用机器人策略。通过弥合仿真与现实之间的视觉和物理差距，PolaRiS 为衡量机器人性能提供了更可靠的代理，省去了大量真实世界实验的时间和成本。

关键贡献

神经场景重建流水线，将简短的视频扫描转换为交互式、具备物理感知的仿真世界。
零样本评估方案，通过在真实数据和模拟数据的混合上共同训练策略，以弥合剩余的现实差距。
实证验证，显示 PolaRiS 仿真得分与真实世界性能之间的相关性显著高于现有仿真器。
可扩展的环境生成：单个视频即可生成完整的 3D 环境，极大降低手工建模工作量。
开源工具，可被研究实验室和工业团队采用，推动机器人基础模型基准测试的民主化。

方法论

Data Capture – 操作者使用普通深度摄像头记录约 10 秒的 RGB‑D 视频，捕获目标场景。
Neural Reconstruction – 将视频输入神经隐式表示（例如 NeRF‑style 模型），该模型学习几何形状和外观，同时估计物理仿真所需的材料属性。
Environment Export – 将学习得到的表示转换为带有碰撞原语和物理参数（质量、摩擦等）的网格，可加载到标准机器人仿真器（如 PyBullet、Isaac Gym）中。
Policy Co‑Training – 在真实世界轨迹和重建环境的模拟回滚混合数据上训练策略。通过简单的域随机化 + 对抗损失，使模拟观测与真实传感器数据对齐。
Zero‑Shot Evaluation – 训练完成后，策略可直接部署到任何新重建的环境中，无需进一步微调，并使用标准任务指标（成功率、完成时间等）衡量其性能。

结果与发现

相关性提升：PolaRiS 仿真得分与真实世界成功率的相关系数为 r = 0.78，而传统仿真器（如 Habitat、iGibson）的相关系数约为 r ≈ 0.45。
加速：在单个 GPU 上对 100 个重建场景评估策略耗时 ≈2 小时，而相同数量的真实世界实验则需要 ≈150 小时 的机器人时间。
泛化能力：使用 PolaRiS 数据共同训练的策略在未见过的真实任务上成功率提升 +12 %，相较仅使用合成数据训练的策略。
创建便利性：作者仅用每个不足 5 分钟的视频捕获，就生成了 50 个多样化的厨房和办公室环境，展示了快速扩展的能力。

实际意义

快速基准测试：开发团队可以在策略设计上进行迭代，并在几分钟内获得接近真实的性能反馈，而不是几天，从而加速研究到产品的流程。
分布式评估：由于重建管道可以在普通硬件上运行，多个实验室（甚至远程现场）都能贡献评估环境，促进全社区的基准测试标准。
成本降低：企业可以通过将大部分评估工作转移到仿真中，减少昂贵的机器人使用时间和磨损，同时保持对结果能够迁移到真实世界的信心。
基础模型验证：随着大规模、多任务机器人模型的出现，PolaRiS 提供了一个可扩展的“测试平台”，用于验证单一策略是否真正能够在多种真实场景中泛化。
与 CI/CD 集成：轻量级管道可以接入持续集成系统，自动从现场录像生成新的测试场景，并标记策略性能的回归。

Limitations & Future Work

Reconstruction fidelity：极度反光或透明的表面仍然对神经渲染步骤构成挑战，导致偶尔出现物理不准确。
Sensor modality gap：当前流水线侧重于 RGB‑D；若扩展到触觉、力觉或本体感受等模态，则需要额外的建模。
Scalability of physics：虽然几何形状捕获良好，但对细粒度材料属性（例如柔顺性）的近似可能影响涉及精细操作的任务。
Future directions highlighted by the authors include:
1. 融入多视角视频和主动扫描以提升重建质量。
2. 学习端到端的模拟器，直接从原始视频预测动力学。
3. 构建公开的重建环境库，以供社区进行基准测试。

作者

Arhan Jain
Mingtong Zhang
Kanav Arora
William Chen
Marcel Torne
Muhammad Zubair Irshad
Sergey Zakharov
Yue Wang
Sergey Levine
Chelsea Finn
Wei‑Chiu Ma
Dhruv Shah
Abhishek Gupta
Karl Pertsch

论文信息

arXiv ID: 2512.16881v1
分类: cs.RO, cs.LG
出版日期: 2025年12月18日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

单目深度估计仍然具有挑战性，因为最近的基础模型，如 Depth Anything V2 (DA-V2)，在处理与真实世界图像相差甚远的情况时表现不佳。

[Paper] 开放基础模型中视觉的对抗鲁棒性

随着深度学习的提升，理解 AI 系统能够识别对象的模型变得越来越困难。因此，对手可能会……

[Paper] 当推理遇到其法则

尽管 Large Reasoning Models (LRMs) 的卓越性能，其推理行为常常违背直觉，导致推理能力次优……

[Paper] 分布鲁棒模仿学习：用于可认证自主性的层次控制架构

模仿学习（Imitation learning，IL）通过从专家示范中学习，实现自主行为。相较于诸如强化学习（reinforcement learning）等比较的替代方法，它在样本效率上更高。