[Paper] ManiTwin:将 Data-Generation-Ready Digital Object Dataset 扩展至 100K
发布: (2026年3月18日 GMT+8 01:59)
8 分钟阅读
原文: arXiv
Source: arXiv - 2603.16866v1
Overview
ManiTwin 引入了一个端到端的流水线,将单张 2‑D 图像转换为可直接用于仿真的 3‑D 对象双胞胎,完整包含物理属性、语言描述、功能标签以及操作建议。通过将该过程规模化至 100 000 个多样化资产,作者提供了一个全新的“即插即用”资源,可即时供机器人操作仿真器、场景生成工具和视觉语言基准使用。
关键贡献
- 自动化资产创建:单图像到双胞胎的工作流,输出网格、纹理、碰撞、质量、摩擦系数和语义标注,无需手动建模。
- ManiTwin‑100K 数据集:100 K 个高保真、可直接操作的数字双胞胎,涵盖日常物品、工业部件和抽象形状。
- 丰富的多模态元数据:每个双胞胎附带自然语言描述、功能标签(例如“可抓取”“可倾倒”),以及一套经过验证的操作提案(抓取姿态、推送轨迹)。
- 开源管线与网页门户:代码库、数据和演示 UI 均公开发布,使研究人员和工程师能够扩展或自定义资产生成过程。
- 已验证的实用性:基准测试显示,ManiTwin‑100K 相较于以往的 3‑D 对象集合,在仿真策略训练、随机场景合成和视觉问答(VQA)生成等方面提升了数据多样性。
方法论
- 图像摄取与形状重建 – 预训练的深度估计网络从单张 RGB 图像预测粗糙点云。点云通过可微分的 marching‑cubes 模块进行细化,以生成 watertight 网格。
- 物理属性估计 – 轻量回归模型根据视觉线索(材质纹理、形状)预测质量、质心和摩擦系数。这些数值在物理引擎(PyBullet)中进行验证,以确保仿真稳定。
- 语义增强 – 语言模型(GPT‑3.5‑style)生成简洁的对象描述和功能标签。另一个分类器将视觉特征映射到操作可行性分类(可抓取、铰链、可倒等)。
- 操作提案生成 – 使用抓取合成库(如 Dex‑Net)和运动规划模块,流水线采样可行的抓取姿态和推送轨迹,然后进行短时物理滚动以验证成功。验证通过的提案与资产一起存储。
- 数据集组装 – 资产自动打包为统一格式(URDF + JSON 元数据)并上传至云存储桶。验证脚本检查网格完整性、标注完整性以及在随机子集上的仿真稳定性。
整个流水线在单 GPU 工作站上运行,约 30 秒即可生成一个新模型,使按需扩展数据集变得实用。
结果与发现
| 指标 | ManiTwin‑100K 与 先前 3‑D 集合 |
|---|---|
| 网格质量(Hausdorff 距离) | 0.018 m(更低) |
| 仿真稳定性(无碰撞步数) | 99.2 % 的资产通过 10 s 物理测试 |
| 多样性(形状与纹理熵) | 比 ShapeNetCore 高 1.35 倍 |
| 策略学习加速 | 在抓取放置基准上,以 80 % 成功率所需的仿真回合减少 2.1 倍 |
| VQA 数据生成 | 每个对象产生的唯一问答对增加 3 倍,得益于更丰富的功能标签 |
定性检查显示,物体保留了细节(例如把手、铰链),生成的操作提案在物理上是合理的——抓取点落在稳固区域,推动轨迹遵循物体质量。
实际意义
- 机器人开发者 可以立即在模拟器(例如 Isaac Gym、PyBullet)中填充真实、可直接使用的对象,省去数月的手动资产创建。
- 基于仿真的强化学习(RL)流水线 受益于更丰富的训练环境,从而加快收敛速度并提升向真实机器人迁移的效果。
- 用于计算机视觉的合成数据流水线(目标检测、VQA、可操作性预测)获得可扩展的标注 3‑D 场景来源,降低对昂贵真实标注的依赖。
- 产品设计与 AR/VR 团队 可以从目录照片快速生成数字孪生,实现交互场景的快速原型制作。
- 开源社区 可以通过更换图像到形状模型或可操作性分类法,将流水线扩展到细分领域(医疗工具、航空航天部件)。
限制与未来工作
- 单视图重建 可能遗漏被遮挡的几何体;复杂物体(例如具有内部空腔的物体)有时会生成不完整的网格。
- 物理属性估计 依赖视觉线索,可能会对外观相似但材质不同的物品(例如塑料与金属)预测质量错误。
- 可供性分类 是固定的;添加新的功能类别需要重新训练分类器。
- 规模扩展至 100 K 以上:虽然流水线速度快,但存储和带宽在分发海量资产包时成为瓶颈。
未来方向包括多视图融合以提升形状保真度,集成触觉仿真以更好地对接可供性,以及构建基于云的资产即服务平台,让开发者按需请求定制数字孪生。
作者
- Kaixuan Wang
- Tianxing Chen
- Jiawei Liu
- Honghao Su
- Shaolong Zhu
- Minxuan Wang
- Zixuan Li
- Yue Chen
- Huan‑ang Gao
- Yusen Qin
- Jiawei Wang
- Qixuan Zhang
- Lan Xu
- Jingyi Yu
- Yao Mu
- Ping Luo
论文信息
- arXiv ID: 2603.16866v1
- 分类: cs.RO, cs.AI, cs.GR, cs.LG, cs.SE
- 发表时间: 2026年3月17日
- PDF: 下载 PDF