[Paper] SOMA: 파라메트릭 인간 신체 모델 통합
Source: arXiv - 2603.16858v1
개요
이 논문은 SOMA라는 “통합 바디 레이어”를 소개합니다. SOMA를 사용하면 개발자는 주요 파라메트릭 인간 바디 모델(SMPL, SMPL‑X, MHR, Anny 등) 중 어떤 모델이든 각 모델 쌍마다 맞춤 어댑터를 작성하지 않아도 됩니다. 메쉬 토폴로지, 스켈레톤, 포즈 표현을 추상화함으로써, SOMA는 조합 폭발적인 문제를 단일 플러그‑인‑앤‑플레이 컴포넌트로 전환하고, GPU에서 실시간으로 실행됩니다.
주요 기여
- 3단계 추상화(메시, 스켈레톤, 포즈)로 모든 지원 모델을 공통 정규 표현으로 매핑.
- 정점당 상수 시간 메시 토폴로지 변환으로 모델별 조회 테이블이 필요 없음.
- 폐쇄형 스켈레톤 복구는 단일 패스에서 어떤 형태나 포즈에서도 아이덴티티에 맞춘 관절 변환을 생성—반복 최적화나 모델별 학습이 필요 없음.
- 포즈 역전은 포즈된 정점으로부터 직접 통합 스켈레톤 회전을 추출하여, 모델 간 모션 캡처 데이터셋을 원활히 혼합 가능하게 함.
- 확장 가능한 연결성: 어댑터 복잡도를 (O(M^2)) (쌍별 변환기)에서 (O(M)) (모델당 하나의 커넥터)로 감소.
- 완전 미분 가능하고 GPU 가속 구현은 NVIDIA‑Warp 기반으로, SOMA를 딥러닝 파이프라인에 바로 사용할 수 있게 함.
방법론
SOMA는 각 파라메트릭 모델을 공유되는 기본 인간 몸체의 뷰로 취급합니다:
- Mesh Topology Abstraction – 정규 메시(“SOMA mesh”)는 한 번 정의됩니다. 모든 소스 모델에 대해 사전 계산된 정점별 매핑이 SOMA에게 정점 속성을 복사하거나 블렌드하는 방법을 알려주어 상수 시간 변환을 달성합니다.
- Skeletal Abstraction – 정규 스켈레톤은 identity‑aware인 관절 변환 집합으로 표현됩니다. 모델의 형태 파라미터를 사용하여 SOMA는 선형 시스템을 풀어 입력이 기본 자세이든 이미 포즈가 적용된 것이든 관계없이 단일 폐쇄형 단계에서 전체 관절 계층을 얻습니다.
- Pose Abstraction – 표준 선형 블렌드 스키닝(LBS) 파이프라인을 역전시켜 SOMA는 주어진 정점 위치를 생성한 회전 행렬을 복원합니다. 스키닝 가중치도 정규 공간에 매핑되므로 지원되는 모든 모델에 대해 작동합니다.
세 개의 레이어가 연쇄되어 차분 가능한 함수
[ \text{SOMA}( \text{model_id}, \text{shape}, \text{pose}) \rightarrow \text{canonical_mesh}, \text{canonical_joints} ]
를 생성하며, 이는 추가적인 bookkeeping 없이 학습 루프나 추론 파이프라인에 삽입될 수 있습니다.
결과 및 발견
- 속도 – 메쉬 변환은 정점당 약 0.5 µs 속도로 실행되며; 골격 복구와 포즈 역전은 RTX 3080에서 전체 몸(≈10 k 정점) 기준 각각 1 ms 미만에 완료됩니다.
- 정확도 – SOMA를 통해 SMPL‑X를 SMPL로 변환할 때, 결과 메쉬는 실제 직접 변환과 평균 유클리드 거리 기준 <0.3 mm 차이만을 보이며, 추상이 기하학적 정확성을 손상시키지 않음을 확인합니다.
- 확장성 – 새로운 모델을 추가하려면 토폴로지/가중치 매핑을 한 번만 수행하면 되며, 전체 시스템 크기는 모델 수에 따라 선형적으로 증가하고, 제곱으로 증가하지 않습니다.
- 미분 가능성 – SOMA 호환 파라미터를 출력하는 포즈 추정 네트워크의 엔드‑투‑엔드 학습은 별도의 모델별 어댑터를 사용할 때보다 1.8× 빠르게 수렴하며, 이는 추상화 레이어를 통한 부드러운 그래디언트 덕분입니다.
실용적 함의
- 크로스‑데이터셋 학습 – 연구자들은 이제 SMPL‑X, MHR, Anny의 모션 캡처 데이터를 수동 리타게팅 없이 단일 모델에 학습시킬 수 있어 활용 가능한 데이터가 크게 확대됩니다.
- 하이브리드 파이프라인 – 게임 스튜디오는 동일 캐릭터 내에서 SMPL‑X의 고품질 얼굴 리그와 SMPL의 경량 바디 리그를 결합해, 각 모델의 최적 파트를 실시간으로 교체할 수 있습니다.
- 실시간 애플리케이션 – 전체 파이프라인이 GPU 가속 및 미분 가능하기 때문에 AR/VR 아바타, 라이브 스트리밍 필터, 혹은 빠르고 일관된 바디 표현이 필요한 로봇 시뮬레이터에 삽입할 수 있습니다.
- 툴링 간소화 – SDK와 라이브러리는 수십 개의 쌍별 변환기를 제공하는 대신 하나의 “SOMA 백엔드”만 제공하면 되므로 유지보수 비용과 버전 호환성 문제를 크게 줄입니다.
제한 사항 및 향후 작업
- 모델 커버리지 – SOMA는 현재 가장 널리 사용되는 파라메트릭 모델을 지원합니다; 이색적이거나 독점적인 리그는 사용하기 전에 맞춤형 토폴로지/웨이트 맵이 필요합니다.
- 스키닝 가정 – 포즈 역전은 선형 블렌드 스키닝에 의존합니다; 보다 복잡한 변형(예: 보정 블렌드 쉐이프)을 사용하는 모델은 일부 미묘함을 잃을 수 있습니다.
- 세밀한 디테일 – 기하학적 오류는 낮지만, 미묘한 고주파 디테일(예: 옷 주름)은 모델 간에 명시적으로 보존되지 않습니다.
- 향후 방향 – 저자들은 SOMA를 비강체 액세서리를 처리하도록 확장하고, 더 세밀한 디테일을 위해 신경 임플리시트 표현을 통합하며, 커뮤니티 채택을 가속화하기 위해 변환 툴킷을 오픈소스화할 계획입니다.
저자
- Jun Saito
- Jiefeng Li
- Michael de Ruyter
- Miguel Guerrero
- Edy Lim
- Ehsan Hassani
- Roger Blanco Ribera
- Hyejin Moon
- Magdalena Dadela
- Marco Di Lucca
- Qiao Wang
- Xueting Li
- Jan Kautz
- Simon Yuen
- Umar Iqbal
논문 정보
- arXiv ID: 2603.16858v1
- 카테고리: cs.CV, cs.AI
- 발행일: 2026년 3월 17일
- PDF: Download PDF