[论文] 仿真就绪的杂乱场景估计：基于物理感知的形状与姿态联合优化

发布: 3天前 (2026年2月24日 GMT+8 02:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.20150v1

概述

本文解决了机器人和仿真流水线的核心瓶颈：将混乱的真实桌面上的原始传感器数据转换为 simulation‑ready scene——包括精确的 3‑D 形状、姿态以及物理上合理的接触。通过将可微分接触模型与巧妙的稀疏矩阵求解器相结合，作者提供了一个系统，能够在高度拥挤的场景中共同优化多个相互作用物体的几何形状和放置位置。

关键贡献

物理感知的联合优化 对象形状和姿态，而不是将它们视为独立步骤。
引入一种 形状可微分接触模型，该模型保持全局可微分，使得能够通过接触约束进行基于梯度的更新。
利用 增强拉格朗日 Hessian 的结构稀疏性 构建 可扩展的线性求解器，其运行时间随对象数量的增长而适度提升。
一个 端到端流水线，包括：
1. 基于学习的对象检测与粗略初始化，
2. 受物理约束的联合形状‑姿态细化，
3. 可微分纹理细化以实现视觉真实感。
在最多包含 5 个对象（22 个凸包组件）的场景上进行实证验证，展示了对 物理有效 且 可用于仿真 的模型的稳健恢复。

方法论

初始猜测 – 预训练的目标检测器提供粗略的边界框和类别级形状先验（例如，凸包模板）。
可微分接触模型 – 每个对象由一组凸包表示。接触模型解析计算对象间的渗透深度和法向力，并且关键是其梯度在所有位置都有定义（在接触处没有“死区”）。
联合优化目标
- 数据项：使渲染的深度/分割与观测到的传感器数据对齐。
- 形状正则项：保持精炼后的凸包接近学习到的先验（防止退化几何）。
- 物理项：使用可微分接触强制非渗透和静力平衡。
增广拉格朗日求解器 – 目标通过增广拉格朗日方法求解。由于每个接触只耦合少量凸包，Hessian 矩阵是块稀疏的。作者推导出利用该稀疏性的自定义线性系统求解器，使得随对象数量的扩展接近线性。
纹理细化 – 当几何收敛后，进行一次可微分渲染过程，更新每个对象的纹理图以更好匹配 RGB 观测，完成可用于仿真的资产。

结果与发现

指标	基线（分离形状 & 姿态）	提议方法
姿态 RMSE (cm)	2.8	1.4
形状 IoU (凸包)	0.71	0.86
接触违规 (mm)	3.2	0.4
运行时间 (每场景)	45 s	9 s（5 对象情况）

系统始终能够生成 物理上稳定 的配置（无相互穿透），即使初始猜测被大幅扰动。
目视检查表明，细化后的纹理与背景无缝融合，使得输出可直接用于光真实感模拟器（例如 Isaac Gym、MuJoCo）。
扩展实验显示，增加对象数量导致的运行时间增长 次线性，验证了稀疏 Hessian 求解器的优势。

Practical Implications

机器人仿真流水线 可以直接读取实验台上的原始 RGB‑D 流，并即时生成符合物理约束的精确模型，用于后续的规划、强化学习或数字孪生。
游戏和 AR/VR 开发者 获得了一种工具，能够直接从扫描的环境中自动填充真实的物体网格和碰撞形状，显著缩短手动资产创建的时间。
制造检测 系统可以自动重建零件几何形状，并在物理约束下验证装配公差，从而实现更智能的质量控制闭环。
由于该方法是 基于梯度的，可以集成到更大的可微分流水线中（例如端到端策略学习，其中感知模块与控制器共同训练）。

限制与未来工作

当前的公式假设 刚性、凸壳近似的对象；可变形或高度凹形的物体需要额外处理。
纹理细化依赖单一 RGB 视图；复杂光照或镜面表面可能限制视觉保真度。
实际部署仍然需要一个不错的初始检测；极端遮挡可能导致优化器收敛到局部最小值。
未来方向包括将接触模型扩展到 软接触，支持 非凸基元，以及探索针对动态场景的在线（逐帧）更新。

作者

Wei‑Cheng Huang
Jiaheng Han
Xiaohan Ye
Zherong Pan
Kris Hauser

论文信息

arXiv ID: 2602.20150v1
分类: cs.RO, cs.CV
发表时间: 2026年2月23日
PDF: 下载 PDF

相关文章

阅读更多 »

[论文] Neu-PiG：神经预条件网格用于长序列的快速动态表面重建

从非结构化点云数据中对动态3D对象进行时间一致的表面重建仍然具有挑战性，尤其是对于非常长的序列。E...

[论文] WHOLE：基于世界坐标的手-对象提升来自第一人称视频

Egocentric manipulation videos 在交互过程中由于严重遮挡以及物体频繁进入和离开摄像头视野而极具挑战性……

[Paper] Solaris: 在 Minecraft 中构建多人视频世界模型

现有的 action‑conditioned video generation models（video world models）局限于单代理视角，未能捕捉多代理交互……

[Paper] 现成的 Image-to-Image 模型是击败图像保护方案的全部所需

生成式人工智能（GenAI）的进步促使开发出多种保护策略，以防止图像的未经授权使用。这些方法依赖于...