[Paper] Particulate: Feed-Forward 3D 객체 관절화

발행: (2025년 12월 13일 오전 03:59 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.11798v1

Overview

Particulate는 새로운 피드‑포워드 시스템으로, 단일 정적 3D 메시(예: CAD 모델이나 의자 스캔)를 입력받아 숨겨진 관절 구조를 즉시 복원합니다: 별개의 움직이는 부품, 이들이 어떻게 연결되는지, 그리고 각 관절의 움직임 제한을 제공합니다. 비용이 많이 드는 객체별 최적화를 트랜스포머 기반 네트워크의 단일 전방 패스로 대체함으로써, 이 방법은 정적 3D 자산을 몇 초 만에 완전하게 리깅되고 애니메이션 가능한 모델로 전환하는 것을 실용화합니다.

Key Contributions

  • End‑to‑end transformer architecture (Part Articulation Transformer) 로, 메쉬의 포인트 클라우드를 입력받아 한 번에 부품, 운동학적 계층 구조, 관절 제한을 예측합니다.
  • Native multi‑joint support, 즉 임의 개수의 움직이는 링크(예: 여러 개의 힌지가 있는 접이식 테이블)를 지원합니다.
  • Large‑scale training on a curated collection of articulated assets from public datasets, plus a newly released benchmark for articulation estimation.
  • Real‑time inference: 전체 파이프라인이 단일 GPU에서 몇 초 안에 실행되어 기존 최적화 기반 방법보다 크게 빠릅니다.
  • Generalisation to AI‑generated 3D content, enabling a pipeline that goes from a single image → 3D mesh → articulated model using off‑the‑shelf image‑to‑3D generators.

Methodology

  1. Input preprocessing – 정적 메시는 균일하게 샘플링되어 포인트 클라우드(≈10k 포인트)로 변환됩니다.
  2. Part Articulation Transformer – 계층형 트랜스포머가 포인트 클라우드를 처리합니다.
    • Local feature extraction via self‑attention on small neighborhoods captures fine geometry (e.g., a door edge).
    • Global reasoning aggregates these features to infer the overall kinematic graph (which part moves relative to which).
  3. Joint prediction heads – 별도의 MLP 헤드가 다음을 출력합니다:
    • Part segmentation (per‑point label).
    • Parent‑child relationships (directed edges of the articulation tree).
    • Joint type & limits (revolute, prismatic, range of motion).
  4. Lifting to mesh – 예측된 속성이 원본 메시에 다시 전달되어 애니메이션이 가능한 리깅 모델을 생성합니다.
  5. Training – 세그멘테이션에 교차 엔트로피, 인접성에 바이너리 교차 엔트로피, 관절 파라미터에 회귀 손실을 사용한 지도 학습. 손실은 객체별 부품 수 변동성을 균형 있게 맞추도록 가중됩니다.

전체 네트워크는 미분 가능하며 end‑to‑end로 학습되어, 부품 탐지와 운동학 추론을 별개의 단계가 아니라 공동으로 최적화합니다.

Results & Findings

  • Quantitative boost: 새로운 벤치마크(≈2k 다양한 객체)에서 Particulate는 부품 세그멘테이션에 대해 평균 Intersection‑over‑Union (mIoU) 84 %를, 전체 운동학 트리를 올바르게 예측하는 정확도 71 %를 달성했으며, 이는 이전 최첨단 방법(ArticulationNet)보다 최대 20 % 높은 수치입니다.
  • Speed: RTX 3090 기준 평균 추론 시간은 객체당 1.8 초이며, 최적화 기반 베이스라인은 30 초–5 분이 소요됩니다.
  • Robustness to noise: 입력 포인트 클라우드에 5 % 가우시안 노이즈가 추가되어도 모델은 75 % 이상의 운동학 정확도를 유지해, 불완전한 스캔에 대한 회복력을 보여줍니다.
  • AI‑generated assets: 확산 기반 이미지‑to‑3D 생성기와 결합했을 때, Particulate는 단일 RGB 이미지로부터 생성된 객체의 68 %에서 올바른 관절 구조를 추출해 “single‑image rigging” 경로를 열어줍니다.

정성적 예시(예: 주방 캐비닛, 접이식 의자, 로봇 팔)는 깔끔한 부품 분리와 인간의 기대에 부합하는 관절 제한을 보여줍니다.

Practical Implications

  • Game & AR/VR pipelines: 아티스트는 라이브러리나 절차적 생성기에서 정적 메쉬를 가져와 즉시 리깅된 자산을 얻을 수 있어 수작업 리깅 시간을 크게 단축합니다.
  • Robotics simulation: 엔지니어는 가정용품 CAD 모델을 시뮬레이터(예: Isaac Gym, PyBullet)에 입력해 정확한 관절 모델을 자동으로 생성함으로써 URDF 파일을 손수 만들 필요가 없어집니다.
  • 3D content creation for e‑commerce: 소매업체는 단일 제품 스캔을 업로드하면 고객이 서랍을 열거나 힌지를 회전시킬 수 있는 인터랙티브 3D 데모를 자동으로 생성할 수 있습니다.
  • Data augmentation for learning: 합성된 관절 모델을 실시간으로 생성해 포즈 추정이나 그립 합성 같은 다운스트림 작업의 학습 데이터를 증강할 수 있습니다.
  • Integration with image‑to‑3D tools: 확산 기반 생성기와 Particulate를 체인으로 연결하면 “single‑photo to animated 3D” 서비스를 엔드‑투‑엔드로 구축할 수 있어 빠른 프로토타이핑이나 가상 피팅에 유용합니다.

Limitations & Future Work

  • Complex joint types: 현재 분류 체계는 회전 및 프리즘 관절만 포함하며, 구면 관절이나 맞춤형 캠과 같은 보다 이색적인 제약은 아직 지원되지 않습니다.
  • Sparse topology errors: 부품이 매우 작고 많은 객체(예: 기계식 시계)에서는 네트워크가 인접한 구성 요소를 병합해 과소 세그멘테이션된 리그를 만들 때가 있습니다.
  • Dependence on training distribution: 공개 데이터셋과 크게 다른 스타일리시하거나 비다양체(non‑manifold) 메시는 성능이 저하됩니다.
  • Future directions: 관절 어휘 확장, 물리 기반 사전 지식을 도입해 움직임 제한을 정교화, 대규모 라벨이 없는 3D 저장소에 대한 자기지도 학습을 통해 새로운 스타일에 대한 일반화를 향상시키는 것이 제안됩니다.

Authors

  • Ruining Li
  • Yuxin Yao
  • Chuanxia Zheng
  • Christian Rupprecht
  • Joan Lasenby
  • Shangzhe Wu
  • Andrea Vedaldi

Paper Information

  • arXiv ID: 2512.11798v1
  • Categories: cs.CV, cs.AI, cs.GR
  • Published: December 12, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »