[Paper] ManiTwin: Data-Generation-Ready 디지털 오브젝트 데이터셋을 100K로 스케일링

발행: (2026년 3월 18일 AM 02:59 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2603.16866v1

개요

ManiTwin은 단일 2‑D 이미지를 물리적 특성, 언어 캡션, 기능 태그 및 조작 제안이 포함된 완전한 시뮬레이션 준비가 된 3‑D 객체 트윈으로 변환하는 엔드‑투‑엔드 파이프라인을 소개합니다. 이 과정을 100 000개의 다양한 자산으로 확장함으로써, 저자들은 로봇 조작 시뮬레이터, 장면 생성 도구 및 비전‑언어 벤치마크에 즉시 활용할 수 있는 새로운 “플러그‑앤‑플레이” 리소스를 제공합니다.

Key Contributions

  • Automated asset creation: 수동 모델링 없이 메쉬, 텍스처, 콜리전, 질량, 마찰 및 의미론적 주석을 출력하는 단일 이미지‑투‑트윈 워크플로우.
  • ManiTwin‑100K dataset: 일상용품, 산업 부품, 추상 형태를 포함한 100 K개의 고충실도, 조작 준비가 된 디지털 트윈.
  • Rich multimodal metadata: 각 트윈은 자연어 설명, 기능 라벨(예: “graspable”, “pourable”) 및 검증된 조작 제안 집합(그립 포즈, 푸시 궤적)을 제공.
  • Open‑source pipeline & web portal: 코드베이스, 데이터 및 데모 UI가 공개되어 연구자와 엔지니어가 자산 생성 프로세스를 확장하거나 맞춤화할 수 있음.
  • Demonstrated utility: 벤치마크 결과 ManiTwin‑100K가 기존 3‑D 객체 컬렉션에 비해 시뮬레이션 기반 정책 학습, 무작위 장면 합성, 시각‑질문‑응답(VQA) 생성 등에 있어 데이터 다양성을 향상시킴.

방법론

  1. 이미지 수집 및 형태 재구성 – 사전 학습된 깊이‑추정 네트워크가 단일 RGB 이미지에서 거친 포인트 클라우드를 예측합니다. 포인트 클라우드는 미분 가능한 marching‑cubes 모듈을 사용해 정제되어 watertight 메시를 생성합니다.
  2. 물리적 속성 추정 – 경량 회귀 모델이 시각적 단서(재질 텍스처, 형태)로부터 질량, 무게 중심, 마찰 계수를 예측합니다. 이러한 값은 물리 엔진(PyBullet)과 비교 검증되어 안정적인 시뮬레이션을 보장합니다.
  3. 시맨틱 강화 – 언어 모델(GPT‑3.5 스타일)이 간결한 객체 설명과 기능 태그를 생성합니다. 별도의 분류기가 시각적 특징을 조작 가능성(잡을 수 있음, 힌지, 붓는 등) 분류 체계에 매핑합니다.
  4. 조작 제안 생성 – 그립 합성 라이브러리(예: Dex‑Net)와 모션‑플래닝 모듈을 사용해 파이프라인이 가능한 그립 포즈와 푸시 궤적을 샘플링하고, 짧은 물리 롤아웃을 실행해 성공을 검증합니다. 검증된 제안은 자산과 함께 저장됩니다.
  5. 데이터셋 구성 – 자산은 자동으로 통합 형식(URDF + JSON 메타데이터)으로 패키징되어 클라우드 버킷에 업로드됩니다. 검증 스크립트가 무작위 하위 집합에 대해 메쉬 무결성, 주석 완전성, 시뮬레이션 안정성을 확인합니다.

전체 파이프라인은 단일 GPU 워크스테이션에서 실행되며 약 30 초 안에 새로운 트윈을 생성할 수 있어, 온‑디맨드 데이터셋 확장이 실용적입니다.

결과 및 발견

지표ManiTwin‑100K vs. 기존 3‑D 컬렉션
메시 품질 (Hausdorff 거리)0.018 m (낮음)
시뮬레이션 안정성 (충돌 없는 단계)99.2 %의 자산이 10 s 물리 테스트를 통과
다양성 (형태 및 텍스처 엔트로피)ShapeNetCore 대비 1.35× 높음
정책 학습 가속픽‑앤‑플레이스 벤치마크에서 80 % 성공에 도달하기 위해 시뮬레이션 에피소드가 2.1× 적음
VQA 데이터 생성풍부한 기능 태그 덕분에 객체당 고유 질문‑답변 쌍이 3× 증가

정성적 검사를 통해 객체가 세부 디테일(예: 손잡이, 힌지)을 유지하고, 생성된 조작 제안이 물리적으로 타당함을 확인했습니다—그립 포인트가 안정적인 영역에 위치하고, 푸시 궤적이 객체의 질량을 고려합니다.

Practical Implications

  • 로봇 개발자는 시뮬레이터(예: Isaac Gym, PyBullet)를 현실감 있고 바로 사용할 수 있는 객체들로 즉시 채울 수 있어, 수개월에 걸친 수동 자산 생성 작업을 크게 줄일 수 있습니다.
  • 시뮬레이션 기반 강화학습 파이프라인은 더 풍부한 학습 환경의 혜택을 받아 수렴 속도가 빨라지고 실제 로봇으로의 전이 성능이 향상됩니다.
  • 컴퓨터 비전을 위한 합성 데이터 파이프라인(객체 탐지, VQA, 어포던스 예측 등)은 라벨이 달린 3‑D 씬의 확장 가능한 공급원을 확보하게 되어, 비용이 많이 드는 실제 데이터 라벨링 의존도를 낮춥니다.
  • 제품 디자인 및 AR/VR 팀은 카탈로그 사진으로부터 빠르게 디지털 트윈을 생성하여, 상호작용 시나리오를 신속하게 프로토타이핑할 수 있습니다.
  • 오픈소스 커뮤니티는 이미지‑투‑쉐이프 모델이나 어포던스 분류 체계를 교체함으로써 의료 도구, 항공우주 부품 등 특수 분야로 파이프라인을 확장할 수 있습니다.

제한 사항 및 향후 작업

  • 단일 뷰 재구성은 가려진 기하학을 놓칠 수 있으며, 내부 공동이 있는 복잡한 객체는 때때로 불완전한 메쉬를 생성합니다.
  • 물리적 속성 추정은 시각적 단서에 의존하며, 시각적으로 유사하지만 재질이 다른 물체(예: 플라스틱 vs 금속)의 질량을 잘못 예측할 수 있습니다.
  • 행동 가능성 분류 체계는 고정되어 있어, 새로운 기능 카테고리를 추가하려면 분류기를 재학습해야 합니다.
  • 100 K 이상으로의 확장성: 파이프라인은 빠르지만, 대규모 자산 번들을 배포하는 데 필요한 저장소와 대역폭이 병목 현상이 됩니다.

향후 방향으로는 형태 정확성을 향상시키기 위한 다중 뷰 융합, 보다 나은 행동 가능성 기반을 위한 촉각 시뮬레이션 통합, 그리고 개발자가 필요에 따라 맞춤형 트윈을 요청할 수 있는 클라우드 기반 자산‑as‑a‑service 플랫폼 구축이 있습니다.

저자

  • Kaixuan Wang
  • Tianxing Chen
  • Jiawei Liu
  • Honghao Su
  • Shaolong Zhu
  • Minxuan Wang
  • Zixuan Li
  • Yue Chen
  • Huan‑ang Gao
  • Yusen Qin
  • Jiawei Wang
  • Qixuan Zhang
  • Lan Xu
  • Jingyi Yu
  • Yao Mu
  • Ping Luo

논문 정보

  • arXiv ID: 2603.16866v1
  • 분류: cs.RO, cs.AI, cs.GR, cs.LG, cs.SE
  • 출판일: 2026년 3월 17일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »