[Paper] ManiTwin：将 Data-Generation-Ready Digital Object Dataset 扩展至 100K

发布: 3天前 (2026年3月18日 GMT+8 01:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.16866v1

Overview

ManiTwin 引入了一个端到端的流水线，将单张 2‑D 图像转换为可直接用于仿真的 3‑D 对象双胞胎，完整包含物理属性、语言描述、功能标签以及操作建议。通过将该过程规模化至 100 000 个多样化资产，作者提供了一个全新的“即插即用”资源，可即时供机器人操作仿真器、场景生成工具和视觉语言基准使用。

关键贡献

自动化资产创建：单图像到双胞胎的工作流，输出网格、纹理、碰撞、质量、摩擦系数和语义标注，无需手动建模。
ManiTwin‑100K 数据集：100 K 个高保真、可直接操作的数字双胞胎，涵盖日常物品、工业部件和抽象形状。
丰富的多模态元数据：每个双胞胎附带自然语言描述、功能标签（例如“可抓取”“可倾倒”），以及一套经过验证的操作提案（抓取姿态、推送轨迹）。
开源管线与网页门户：代码库、数据和演示 UI 均公开发布，使研究人员和工程师能够扩展或自定义资产生成过程。
已验证的实用性：基准测试显示，ManiTwin‑100K 相较于以往的 3‑D 对象集合，在仿真策略训练、随机场景合成和视觉问答（VQA）生成等方面提升了数据多样性。

方法论

图像摄取与形状重建 – 预训练的深度估计网络从单张 RGB 图像预测粗糙点云。点云通过可微分的 marching‑cubes 模块进行细化，以生成 watertight 网格。
物理属性估计 – 轻量回归模型根据视觉线索（材质纹理、形状）预测质量、质心和摩擦系数。这些数值在物理引擎（PyBullet）中进行验证，以确保仿真稳定。
语义增强 – 语言模型（GPT‑3.5‑style）生成简洁的对象描述和功能标签。另一个分类器将视觉特征映射到操作可行性分类（可抓取、铰链、可倒等）。
操作提案生成 – 使用抓取合成库（如 Dex‑Net）和运动规划模块，流水线采样可行的抓取姿态和推送轨迹，然后进行短时物理滚动以验证成功。验证通过的提案与资产一起存储。
数据集组装 – 资产自动打包为统一格式（URDF + JSON 元数据）并上传至云存储桶。验证脚本检查网格完整性、标注完整性以及在随机子集上的仿真稳定性。

整个流水线在单 GPU 工作站上运行，约 30 秒即可生成一个新模型，使按需扩展数据集变得实用。

结果与发现

指标	ManiTwin‑100K 与先前 3‑D 集合
网格质量（Hausdorff 距离）	0.018 m（更低）
仿真稳定性（无碰撞步数）	99.2 % 的资产通过 10 s 物理测试
多样性（形状与纹理熵）	比 ShapeNetCore 高 1.35 倍
策略学习加速	在抓取放置基准上，以 80 % 成功率所需的仿真回合减少 2.1 倍
VQA 数据生成	每个对象产生的唯一问答对增加 3 倍，得益于更丰富的功能标签

定性检查显示，物体保留了细节（例如把手、铰链），生成的操作提案在物理上是合理的——抓取点落在稳固区域，推动轨迹遵循物体质量。

实际意义

机器人开发者 可以立即在模拟器（例如 Isaac Gym、PyBullet）中填充真实、可直接使用的对象，省去数月的手动资产创建。
基于仿真的强化学习（RL）流水线 受益于更丰富的训练环境，从而加快收敛速度并提升向真实机器人迁移的效果。
用于计算机视觉的合成数据流水线（目标检测、VQA、可操作性预测）获得可扩展的标注 3‑D 场景来源，降低对昂贵真实标注的依赖。
产品设计与 AR/VR 团队 可以从目录照片快速生成数字孪生，实现交互场景的快速原型制作。
开源社区 可以通过更换图像到形状模型或可操作性分类法，将流水线扩展到细分领域（医疗工具、航空航天部件）。

限制与未来工作

单视图重建 可能遗漏被遮挡的几何体；复杂物体（例如具有内部空腔的物体）有时会生成不完整的网格。
物理属性估计 依赖视觉线索，可能会对外观相似但材质不同的物品（例如塑料与金属）预测质量错误。
可供性分类 是固定的；添加新的功能类别需要重新训练分类器。
规模扩展至 100 K 以上：虽然流水线速度快，但存储和带宽在分发海量资产包时成为瓶颈。

未来方向包括多视图融合以提升形状保真度，集成触觉仿真以更好地对接可供性，以及构建基于云的资产即服务平台，让开发者按需请求定制数字孪生。

作者

Kaixuan Wang
Tianxing Chen
Jiawei Liu
Honghao Su
Shaolong Zhu
Minxuan Wang
Zixuan Li
Yue Chen
Huan‑ang Gao
Yusen Qin
Jiawei Wang
Qixuan Zhang
Lan Xu
Jingyi Yu
Yao Mu
Ping Luo

论文信息

arXiv ID: 2603.16866v1
分类: cs.RO, cs.AI, cs.GR, cs.LG, cs.SE
发表时间: 2026年3月17日
PDF: 下载 PDF

[Paper] ManiTwin：将 Data-Generation-Ready Digital Object Dataset 扩展至 100K

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 用于高效视频 VLMs 的统一时空令牌评分

[Paper] Loc3R-VLM：基于语言的定位与3D推理的视觉语言模型

[Paper] LoST：语义层级标记化用于3D形状

[Paper] 面向可扩展的自动化仓库级数据集用于软件漏洞检测