[Paper] ManiTwin: Data-Generation-Ready 디지털 오브젝트 데이터셋을 100K로 스케일링

발행: 2일 전 (2026년 3월 18일 AM 02:59 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2603.16866v1

개요

ManiTwin은 단일 2‑D 이미지를 물리적 특성, 언어 캡션, 기능 태그 및 조작 제안이 포함된 완전한 시뮬레이션 준비가 된 3‑D 객체 트윈으로 변환하는 엔드‑투‑엔드 파이프라인을 소개합니다. 이 과정을 100 000개의 다양한 자산으로 확장함으로써, 저자들은 로봇 조작 시뮬레이터, 장면 생성 도구 및 비전‑언어 벤치마크에 즉시 활용할 수 있는 새로운 “플러그‑앤‑플레이” 리소스를 제공합니다.

Key Contributions

Automated asset creation: 수동 모델링 없이 메쉬, 텍스처, 콜리전, 질량, 마찰 및 의미론적 주석을 출력하는 단일 이미지‑투‑트윈 워크플로우.
ManiTwin‑100K dataset: 일상용품, 산업 부품, 추상 형태를 포함한 100 K개의 고충실도, 조작 준비가 된 디지털 트윈.
Rich multimodal metadata: 각 트윈은 자연어 설명, 기능 라벨(예: “graspable”, “pourable”) 및 검증된 조작 제안 집합(그립 포즈, 푸시 궤적)을 제공.
Open‑source pipeline & web portal: 코드베이스, 데이터 및 데모 UI가 공개되어 연구자와 엔지니어가 자산 생성 프로세스를 확장하거나 맞춤화할 수 있음.
Demonstrated utility: 벤치마크 결과 ManiTwin‑100K가 기존 3‑D 객체 컬렉션에 비해 시뮬레이션 기반 정책 학습, 무작위 장면 합성, 시각‑질문‑응답(VQA) 생성 등에 있어 데이터 다양성을 향상시킴.

방법론

이미지 수집 및 형태 재구성 – 사전 학습된 깊이‑추정 네트워크가 단일 RGB 이미지에서 거친 포인트 클라우드를 예측합니다. 포인트 클라우드는 미분 가능한 marching‑cubes 모듈을 사용해 정제되어 watertight 메시를 생성합니다.
물리적 속성 추정 – 경량 회귀 모델이 시각적 단서(재질 텍스처, 형태)로부터 질량, 무게 중심, 마찰 계수를 예측합니다. 이러한 값은 물리 엔진(PyBullet)과 비교 검증되어 안정적인 시뮬레이션을 보장합니다.
시맨틱 강화 – 언어 모델(GPT‑3.5 스타일)이 간결한 객체 설명과 기능 태그를 생성합니다. 별도의 분류기가 시각적 특징을 조작 가능성(잡을 수 있음, 힌지, 붓는 등) 분류 체계에 매핑합니다.
조작 제안 생성 – 그립 합성 라이브러리(예: Dex‑Net)와 모션‑플래닝 모듈을 사용해 파이프라인이 가능한 그립 포즈와 푸시 궤적을 샘플링하고, 짧은 물리 롤아웃을 실행해 성공을 검증합니다. 검증된 제안은 자산과 함께 저장됩니다.
데이터셋 구성 – 자산은 자동으로 통합 형식(URDF + JSON 메타데이터)으로 패키징되어 클라우드 버킷에 업로드됩니다. 검증 스크립트가 무작위 하위 집합에 대해 메쉬 무결성, 주석 완전성, 시뮬레이션 안정성을 확인합니다.

전체 파이프라인은 단일 GPU 워크스테이션에서 실행되며 약 30 초 안에 새로운 트윈을 생성할 수 있어, 온‑디맨드 데이터셋 확장이 실용적입니다.

결과 및 발견

지표	ManiTwin‑100K vs. 기존 3‑D 컬렉션
메시 품질 (Hausdorff 거리)	0.018 m (낮음)
시뮬레이션 안정성 (충돌 없는 단계)	99.2 %의 자산이 10 s 물리 테스트를 통과
다양성 (형태 및 텍스처 엔트로피)	ShapeNetCore 대비 1.35× 높음
정책 학습 가속	픽‑앤‑플레이스 벤치마크에서 80 % 성공에 도달하기 위해 시뮬레이션 에피소드가 2.1× 적음
VQA 데이터 생성	풍부한 기능 태그 덕분에 객체당 고유 질문‑답변 쌍이 3× 증가

정성적 검사를 통해 객체가 세부 디테일(예: 손잡이, 힌지)을 유지하고, 생성된 조작 제안이 물리적으로 타당함을 확인했습니다—그립 포인트가 안정적인 영역에 위치하고, 푸시 궤적이 객체의 질량을 고려합니다.

Practical Implications

로봇 개발자는 시뮬레이터(예: Isaac Gym, PyBullet)를 현실감 있고 바로 사용할 수 있는 객체들로 즉시 채울 수 있어, 수개월에 걸친 수동 자산 생성 작업을 크게 줄일 수 있습니다.
시뮬레이션 기반 강화학습 파이프라인은 더 풍부한 학습 환경의 혜택을 받아 수렴 속도가 빨라지고 실제 로봇으로의 전이 성능이 향상됩니다.
컴퓨터 비전을 위한 합성 데이터 파이프라인(객체 탐지, VQA, 어포던스 예측 등)은 라벨이 달린 3‑D 씬의 확장 가능한 공급원을 확보하게 되어, 비용이 많이 드는 실제 데이터 라벨링 의존도를 낮춥니다.
제품 디자인 및 AR/VR 팀은 카탈로그 사진으로부터 빠르게 디지털 트윈을 생성하여, 상호작용 시나리오를 신속하게 프로토타이핑할 수 있습니다.
오픈소스 커뮤니티는 이미지‑투‑쉐이프 모델이나 어포던스 분류 체계를 교체함으로써 의료 도구, 항공우주 부품 등 특수 분야로 파이프라인을 확장할 수 있습니다.

제한 사항 및 향후 작업

단일 뷰 재구성은 가려진 기하학을 놓칠 수 있으며, 내부 공동이 있는 복잡한 객체는 때때로 불완전한 메쉬를 생성합니다.
물리적 속성 추정은 시각적 단서에 의존하며, 시각적으로 유사하지만 재질이 다른 물체(예: 플라스틱 vs 금속)의 질량을 잘못 예측할 수 있습니다.
행동 가능성 분류 체계는 고정되어 있어, 새로운 기능 카테고리를 추가하려면 분류기를 재학습해야 합니다.
100 K 이상으로의 확장성: 파이프라인은 빠르지만, 대규모 자산 번들을 배포하는 데 필요한 저장소와 대역폭이 병목 현상이 됩니다.

향후 방향으로는 형태 정확성을 향상시키기 위한 다중 뷰 융합, 보다 나은 행동 가능성 기반을 위한 촉각 시뮬레이션 통합, 그리고 개발자가 필요에 따라 맞춤형 트윈을 요청할 수 있는 클라우드 기반 자산‑as‑a‑service 플랫폼 구축이 있습니다.

저자

Kaixuan Wang
Tianxing Chen
Jiawei Liu
Honghao Su
Shaolong Zhu
Minxuan Wang
Zixuan Li
Yue Chen
Huan‑ang Gao
Yusen Qin
Jiawei Wang
Qixuan Zhang
Lan Xu
Jingyi Yu
Yao Mu
Ping Luo

논문 정보

arXiv ID: 2603.16866v1
분류: cs.RO, cs.AI, cs.GR, cs.LG, cs.SE
출판일: 2026년 3월 17일
PDF: PDF 다운로드

[Paper] ManiTwin: Data-Generation-Ready 디지털 오브젝트 데이터셋을 100K로 스케일링

개요

Key Contributions

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 효율적인 비디오 VLM을 위한 통합 시공간 토큰 스코어링

[Paper] Loc3R-VLM: 언어 기반 로컬라이제이션 및 3D 추론 with Vision-Language Models

[Paper] LoST: 3D 형태를 위한 의미 수준 토큰화

[Paper] 확장 가능한 자동 레포지토리 수준 데이터셋을 향한 소프트웨어 취약점 탐지