[논문] CubePart: 열린 어휘·부품 제어 3D 생성기
Source: arXiv - 2605.28763v1
개요
CubePart는 의미적으로 의미가 있는 동시에 부품 수준에서 직접 제어 가능한 3D 자산을 생성하는 새로운 방식을 제시합니다. 개발자가 “바퀴”, “시트”, “핸들”과 같은 자유 형식의 부품 이름 목록을 제공하면, 시스템은 일관된 객체로 결합되는 메쉬 집합을 생성하여 애니메이션, 물리 또는 스크립팅에 바로 사용할 수 있게 합니다—현재의 생성기들이 요구하는 번거로운 수동 정리 없이 말이죠.
핵심 기여
- 오픈‑보카뷸러리 부품 스키마 – 사용자는 자연어로 된 어떤 부품 이름 목록이든 지정할 수 있으며, 모델은 이전에 보지 못한 임의의 부품 어휘에도 적응합니다.
- 두 단계 생성 파이프라인 – 전역 형태 인코더가 전체적인 잠재 표현을 만든 뒤, 부품 디코더가 사용자 정의 스키마에 조건화된 각 부품 메쉬로 그 표현을 분할합니다.
- 대규모 부품 라벨링 데이터셋 – 새로운 데이터 마이닝 및 주석 파이프라인을 통해 명시적인 부품 태그가 포함된 다양한 3D 저장소를 구축하여 모델이 세밀한 의미를 학습하도록 합니다.
- 후처리 없이 바로 통합 – 생성된 부품은 이미 워터타이트하고 올바른 방향을 가지며, Unity·Unreal 등 일반 게임 엔진 파이프라인과 호환됩니다.
- 다운스트림 활용 입증 – 자산을 바로 리깅·애니메이션하고 행동 스크립트로 구동할 수 있어, 자산 준비에 소요되는 주를 크게 단축합니다.
방법론
-
데이터 구축
- 저자들은 기존 3D 모델 저장소(예: ShapeNet, TurboSquid)를 스크래핑하고, 텍스트 기반 메타데이터, 계층적 명명 규칙, 사전 학습된 부품 분할 네트워크를 결합해 자동으로 부품 주석을 추출합니다.
- 정제 단계에서는 노이즈 라벨을 필터링하고 동의어(예: “leg” vs. “support”)를 정규화하여 통합된 오픈‑보카뷸러리 부품 사전을 구축합니다.
-
두 단계 아키텍처
- 전역 형태 인코더: 트랜스포머 기반 인코더가 텍스트 프롬프트(예: “미래형 오토바이”)를 받아 전체 기하와 스타일을 포착하는 잠재 벡터를 생성합니다.
- 부품 디코더: 사용자가 제공한 각 부품 이름마다 경량 조건부 디코더가 전역 잠재 벡터와 부품 토큰의 학습 임베딩을 입력받아 서명 거리 함수(SDF) 그리드를 출력하고, 이후 marching cubes로 메쉬화합니다. 디코더가 독립적으로 동작하므로 추론 시 부품 수와 순서는 자유롭게 변합니다.
-
조립 및 정렬
- 학습된 공간 변환기가 각 부품에 대한 강체 변환을 예측해 개별 생성 메쉬가 올바르게 정렬되도록 합니다(예: 바퀴가 차체에 부착).)
- 경량 일관성 손실이 인접 부품 사이의 틈새나 침투를 훈련 중에 벌점으로 부과합니다.
-
학습 체계
- 모델은 정제된 데이터셋을 대상으로 재구성 손실(실제 부품 기하와 매칭), 대비 손실(텍스트와 부품 임베딩 정렬), 그리고 적대 손실(현실적인 표면 디테일 유도)을 결합해 엔드‑투‑엔드로 학습됩니다.
결과 및 발견
| 지표 | 기준 (단일 생성기) | CubePart |
|---|---|---|
| 부품‑레벨 IoU (평균) | 0.42 | 0.71 |
| 텍스트‑대‑부품 정렬 (BLEU) | 0.31 | 0.68 |
| 수동 정리 시간 (시간/자산) | 2–4 | <0.2 |
| Unity 호환성 (통과율) | 68% | 96% |
- 의미적 충실도: “팔걸이와 쿠션이 있는 나무 의자”라는 프롬프트에 대해 CubePart는 다리, 좌석, 등받이, 팔걸이, 쿠션을 각각 별도 메쉬로 생성하며, 각 메쉬가 의도된 재질 단서를 정확히 반영합니다.
- 일반화: 오픈‑보카뷸러리 설계 덕분에 훈련에 전혀 등장하지 않았던 “태양광 패널”이나 “그립‑핸들” 같은 새로운 부품 이름도 IoU가 약 5% 감소하는 정도로 처리합니다.
- 사용자 조사: 15명의 게임 개발자는 전통적인 모델링 워크플로 대비 CubePart를 사용해 자산 프로토타입을 만들 때 반복 시간이 70% 감소했다고 보고했습니다.
실용적 함의
- 빠른 프로토타이핑: 디자이너는 한 줄의 텍스트와 간단한 부품 계층 스케치를 통해 완전 리깅 가능한 자산을 즉시 생성할 수 있어, 컨셉 → 플레이 단계의 사이클이 크게 단축됩니다.
- 절차적 콘텐츠 생성: 게임 엔진은 런타임에 CubePart를 호출해 다양한 물리적으로 타당한 객체(예: 배럴, 그립, 매거진 구성이 다른 무기)를 자동으로 생성하고 충돌 메쉬를 그대로 적용할 수 있습니다.
- 자산 파이프라인: 각 부품이 별도의 깨끗한 메쉬(적절한 UV와 노멀 포함)로 내보내지므로 리깅·스키닝·물리 단계에서 추가 토폴로지 수정이나 그룹 재구성이 필요 없습니다.
- 도메인 간 재사용: 건축가, AR/VR 제작자, 로봇 시뮬레이터 등은 동일 API를 활용해 가구, 도구, 매니퓰레이터 등 부품 인식 모델을 손쉽게 얻을 수 있어, 분야별 전용 모델링 툴의 필요성이 감소합니다.
제한 사항 및 향후 연구
- 해상도 트레이드‑오프: 현재 SDF 그리드 해상도(64³)는 섬세한 표면 디테일을 제한합니다; 해상도를 높이면 메모리와 추론 시간이 증가합니다.
- 복잡한 토폴로지: 체인메일이나 정교한 기어와 같이 서로 얽힌 부품을 가진 객체는 가끔 미세한 침투가 발생해 여전히 수동 조정이 필요합니다.
- 의미 모호성: 오픈‑보카뷸러리 프롬프트는 “handle”과 “grip”처럼 다르게 해석될 수 있어 부품 분할이 일관되지 않을 수 있습니다; 향후 인터랙티브한 명확화 루프를 도입할 계획입니다.
- 데이터셋 편향: 학습 데이터가 의자·차량 등 소비자용 객체에 치우쳐 있어, 산업용·유기체 도메인으로 확장하면 일반성이 향상될 것입니다.
저자들은 데이터셋을 오픈소스로 공개하고 Unity/Unreal용 경량 SDK를 제공할 예정이며, 고주파 디테일을 유지하면서 부품 제어성을 잃지 않는 확산 기반 디코더 연구도 진행할 계획입니다.
저자
- Yiheng Zhu
- Kangle Deng
- Jean-Philippe Fauconnier
- Inaki Navarro
- Daiqing Li
- Ava Pun
- Yinan Zhang
- Peiye Zhuang
- Xiaoxia Sun
- Maneesh Agrawala
- Kiran Bhat
- Tinghui Zhou
논문 정보
- arXiv ID: 2605.28763v1
- 분류: cs.AI
- 발표일: 2026년 5월 27일
- PDF: Download PDF