[Paper] SOMA: 파라메트릭 인간 신체 모델 통합

발행: 2일 전 (2026년 3월 18일 AM 02:58 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2603.16858v1

개요

이 논문은 SOMA라는 “통합 바디 레이어”를 소개합니다. SOMA를 사용하면 개발자는 주요 파라메트릭 인간 바디 모델(SMPL, SMPL‑X, MHR, Anny 등) 중 어떤 모델이든 각 모델 쌍마다 맞춤 어댑터를 작성하지 않아도 됩니다. 메쉬 토폴로지, 스켈레톤, 포즈 표현을 추상화함으로써, SOMA는 조합 폭발적인 문제를 단일 플러그‑인‑앤‑플레이 컴포넌트로 전환하고, GPU에서 실시간으로 실행됩니다.

주요 기여

3단계 추상화(메시, 스켈레톤, 포즈)로 모든 지원 모델을 공통 정규 표현으로 매핑.
정점당 상수 시간 메시 토폴로지 변환으로 모델별 조회 테이블이 필요 없음.
폐쇄형 스켈레톤 복구는 단일 패스에서 어떤 형태나 포즈에서도 아이덴티티에 맞춘 관절 변환을 생성—반복 최적화나 모델별 학습이 필요 없음.
포즈 역전은 포즈된 정점으로부터 직접 통합 스켈레톤 회전을 추출하여, 모델 간 모션 캡처 데이터셋을 원활히 혼합 가능하게 함.
확장 가능한 연결성: 어댑터 복잡도를 (O(M^2)) (쌍별 변환기)에서 (O(M)) (모델당 하나의 커넥터)로 감소.
완전 미분 가능하고 GPU 가속 구현은 NVIDIA‑Warp 기반으로, SOMA를 딥러닝 파이프라인에 바로 사용할 수 있게 함.

방법론

SOMA는 각 파라메트릭 모델을 공유되는 기본 인간 몸체의 뷰로 취급합니다:

Mesh Topology Abstraction – 정규 메시(“SOMA mesh”)는 한 번 정의됩니다. 모든 소스 모델에 대해 사전 계산된 정점별 매핑이 SOMA에게 정점 속성을 복사하거나 블렌드하는 방법을 알려주어 상수 시간 변환을 달성합니다.
Skeletal Abstraction – 정규 스켈레톤은 identity‑aware인 관절 변환 집합으로 표현됩니다. 모델의 형태 파라미터를 사용하여 SOMA는 선형 시스템을 풀어 입력이 기본 자세이든 이미 포즈가 적용된 것이든 관계없이 단일 폐쇄형 단계에서 전체 관절 계층을 얻습니다.
Pose Abstraction – 표준 선형 블렌드 스키닝(LBS) 파이프라인을 역전시켜 SOMA는 주어진 정점 위치를 생성한 회전 행렬을 복원합니다. 스키닝 가중치도 정규 공간에 매핑되므로 지원되는 모든 모델에 대해 작동합니다.

세 개의 레이어가 연쇄되어 차분 가능한 함수

[ \text{SOMA}( \text{model_id}, \text{shape}, \text{pose}) \rightarrow \text{canonical_mesh}, \text{canonical_joints} ]

를 생성하며, 이는 추가적인 bookkeeping 없이 학습 루프나 추론 파이프라인에 삽입될 수 있습니다.

결과 및 발견

속도 – 메쉬 변환은 정점당 약 0.5 µs 속도로 실행되며; 골격 복구와 포즈 역전은 RTX 3080에서 전체 몸(≈10 k 정점) 기준 각각 1 ms 미만에 완료됩니다.
정확도 – SOMA를 통해 SMPL‑X를 SMPL로 변환할 때, 결과 메쉬는 실제 직접 변환과 평균 유클리드 거리 기준 <0.3 mm 차이만을 보이며, 추상이 기하학적 정확성을 손상시키지 않음을 확인합니다.
확장성 – 새로운 모델을 추가하려면 토폴로지/가중치 매핑을 한 번만 수행하면 되며, 전체 시스템 크기는 모델 수에 따라 선형적으로 증가하고, 제곱으로 증가하지 않습니다.
미분 가능성 – SOMA 호환 파라미터를 출력하는 포즈 추정 네트워크의 엔드‑투‑엔드 학습은 별도의 모델별 어댑터를 사용할 때보다 1.8× 빠르게 수렴하며, 이는 추상화 레이어를 통한 부드러운 그래디언트 덕분입니다.

실용적 함의

크로스‑데이터셋 학습 – 연구자들은 이제 SMPL‑X, MHR, Anny의 모션 캡처 데이터를 수동 리타게팅 없이 단일 모델에 학습시킬 수 있어 활용 가능한 데이터가 크게 확대됩니다.
하이브리드 파이프라인 – 게임 스튜디오는 동일 캐릭터 내에서 SMPL‑X의 고품질 얼굴 리그와 SMPL의 경량 바디 리그를 결합해, 각 모델의 최적 파트를 실시간으로 교체할 수 있습니다.
실시간 애플리케이션 – 전체 파이프라인이 GPU 가속 및 미분 가능하기 때문에 AR/VR 아바타, 라이브 스트리밍 필터, 혹은 빠르고 일관된 바디 표현이 필요한 로봇 시뮬레이터에 삽입할 수 있습니다.
툴링 간소화 – SDK와 라이브러리는 수십 개의 쌍별 변환기를 제공하는 대신 하나의 “SOMA 백엔드”만 제공하면 되므로 유지보수 비용과 버전 호환성 문제를 크게 줄입니다.

제한 사항 및 향후 작업

모델 커버리지 – SOMA는 현재 가장 널리 사용되는 파라메트릭 모델을 지원합니다; 이색적이거나 독점적인 리그는 사용하기 전에 맞춤형 토폴로지/웨이트 맵이 필요합니다.
스키닝 가정 – 포즈 역전은 선형 블렌드 스키닝에 의존합니다; 보다 복잡한 변형(예: 보정 블렌드 쉐이프)을 사용하는 모델은 일부 미묘함을 잃을 수 있습니다.
세밀한 디테일 – 기하학적 오류는 낮지만, 미묘한 고주파 디테일(예: 옷 주름)은 모델 간에 명시적으로 보존되지 않습니다.
향후 방향 – 저자들은 SOMA를 비강체 액세서리를 처리하도록 확장하고, 더 세밀한 디테일을 위해 신경 임플리시트 표현을 통합하며, 커뮤니티 채택을 가속화하기 위해 변환 툴킷을 오픈소스화할 계획입니다.

저자

Jun Saito
Jiefeng Li
Michael de Ruyter
Miguel Guerrero
Edy Lim
Ehsan Hassani
Roger Blanco Ribera
Hyejin Moon
Magdalena Dadela
Marco Di Lucca
Qiao Wang
Xueting Li
Jan Kautz
Simon Yuen
Umar Iqbal

논문 정보

arXiv ID: 2603.16858v1
카테고리: cs.CV, cs.AI
발행일: 2026년 3월 17일
PDF: Download PDF

[Paper] SOMA: 파라메트릭 인간 신체 모델 통합

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 효율적인 비디오 VLM을 위한 통합 시공간 토큰 스코어링

[Paper] Loc3R-VLM: 언어 기반 로컬라이제이션 및 3D 추론 with Vision-Language Models

[Paper] LoST: 3D 형태를 위한 의미 수준 토큰화

[Paper] VideoAtlas: 로그 연산으로 장시간 비디오 탐색