[Paper] 대규모 Codec Avatars: 대규모 아바타 사전학습의 놀라운 효과
Source: arXiv - 2604.02320v1
Overview
이 논문은 Large‑Scale Codec Avatars (LCA) 라는 새로운 3‑D 인간 아바타 시스템을 소개합니다. 이 시스템은 스튜디오에서 촬영한 모델의 시각적 충실도와 방대한 “in‑the‑wild” 데이터셋의 광범위한 일반화를 결합합니다. 백만 개의 일상 비디오에 대해 사전 학습한 뒤 고품질 스튜디오 데이터로 미세 조정함으로써, LCA는 단일 순전파만으로 거의 모든 사람에 대한 상세하고 표현력 있는 전신 아바타를 생성할 수 있습니다.
주요 기여
- 두 단계 사전/후 훈련 파이프라인 for avatars: 1 M 비선별 비디오 → 광범위한 외관 및 기하학 사전, 이어서 선별된 스튜디오 데이터 → 고충실도 표정 및 디테일.
- 피드포워드 추론은 반복 최적화 없이 얼굴 표정, 손가락 관절 움직임, 현실적인 의상을 포함한 전체 몸 메쉬를 생성한다.
- 새롭게 나타나는 기능으로는 재조명 가능성, 헐렁한 의상 처리, 스타일화되거나 만화 같은 입력에 대한 제로샷 강인성이 포함되며, 해당 작업에 대해 명시적으로 학습되지 않았음에도 불구하고 발현된다.
- 확장 가능한 아키텍처는 “코덱” 표현(기하학, 텍스처, 움직임에 대한 압축 잠재 코드)을 기반으로 하며, 효율적으로 저장·전송·편집할 수 있다.
- 광범위한 평가는 다양한 인구통계, 헤어스타일, 의류 유형에 대해 수행되었으며, 강력한 정체성 보존 및 교차 도메인 일반화를 보여준다.
Source: …
방법론
-
데이터 수집
- 사전 학습 세트: 공개 플랫폼(예: TikTok, Instagram)에서 수집한 약 1 백만 개의 짧은 비디오 클립. 이 비디오는 다양한 체형, 의복, 조명 및 배경을 제공한다.
- 사후 학습 세트: 다중 뷰 리그로 촬영된 약 1만 명의 피험자를 포함한 스튜디오 컬렉션. 정밀한 기하학, 고해상도 텍스처, 동기화된 표정/포즈 라벨을 제공한다.
-
코덱 아키텍처
- 기하학 인코더/디코더: 변형 가능한 SMPL‑X‑스타일 메쉬에 매핑되는 잠재 형태 코드를 학습한다.
- 외관 인코더/디코더: 텍스처 아틀라스와 정점당 알베도를 생성한다.
- 모션 인코더: 포즈, 얼굴 블렌드쉐이프, 손가락 관절 회전을 포착한다.
- 세 개의 코드는 모두 연결되어 트랜스포머‑스타일 백본을 통과하며, 교차 모달 관계를 학습한다.
-
사전 학습 단계
- 자체 지도 학습 목표: 다중 뷰 일관성, 실루엣 재투영, 차별 가능한 렌더링을 이용한 광도 재구성.
- 모델은 인간 형태, 의복 주름, 조명에 대한 일반적인 사전 지식을 학습한다.
-
사후 학습(미세 조정) 단계
- 스튜디오 데이터에 대한 지도 손실: 밀집 3‑D 포인트 클라우드, 고해상도 텍스처 맵, 실제 얼굴 블렌드쉐이프 계수.
- 추가 정규화 항은 미세한 관절 움직임(예: 손가락 굽힘)과 고주파 표면 디테일을 강제한다.
-
추론
- 단일 RGB 이미지(또는 짧은 비디오 클립)를 인코더에 입력 → 잠재 코드 → 트랜스포머 → 디코딩된 메쉬 + 텍스처.
- 피험자별 최적화가 필요 없으며, 현대 GPU에서 실시간으로 실행된다.
결과 및 발견
| 지표 | 사전 학습만 | 후 훈련 후 |
|---|---|---|
| 평균 정점당 오류 (mm) | 4.2 | 1.8 |
| 얼굴 표정 RMSE | 6.5° | 2.3° |
| 텍스처 PSNR (dB) | 28.1 | 33.4 |
| 추론 시간 (ms) | 45 | 38 (실시간) |
- 일반화: LCA는 연령, 성별, 인종에 걸쳐 보지 못한 정체성을 정확히 복원하며 평균 <2 mm의 기하학적 오류를 보입니다.
- 표현력: 손가락 수준의 관절 움직임과 미세한 얼굴 표정(예: 눈썹 올리기)까지 높은 충실도로 포착됩니다.
- 자발적 재조명 가능성: 명시적인 재조명 지도 없이도 학습된 외관 코드를 새로운 조명 조건에서 재렌더링할 수 있어, 그럴듯한 음영 변화를 구현합니다.
- 제로샷 스타일화: 스타일화된 그림이나 만화 프레임을 입력해도 LCA는 일관된 3‑D 기하학을 생성하여 강인한 특징 학습을 시사합니다.
Practical Implications
- 실시간 가상 제작: 스튜디오는 라이브 스트리밍 이벤트를 위해 고품질 디지털 더블을 실시간으로 생성할 수 있어, 시간 소모적인 모션 캡처 파이프라인의 필요성을 줄인다.
- 메타버스 아바타: 플랫폼은 사용자가 즉시 생성된 사진처럼 사실적인 아바타를 제공할 수 있으며, 개인 정체성을 유지하면서 표현적인 제스처와 의상 변화를 지원한다.
- AR/VR 텔레프레즌스: 저지연 아바타 생성은 보다 자연스러운 원격 협업을 가능하게 하며, 정확한 손과 얼굴 움직임이 사회적 존재감을 향상시킨다.
- 이커머스 및 가상 피팅: 브랜드는 쇼핑객의 몸과 얼굴을 3‑D 모델에 매핑하여, 전용 스캔 부스 없이도 현실적인 의류 시뮬레이션을 가능하게 한다.
- 게임 개발: 에셋 파이프라인은 배우의 간단한 비디오 클립을 받아 리깅된 캐릭터를 출력할 수 있어, 애니메이션에 바로 사용할 수 있으며 수작업 모델링 작업을 크게 줄인다.
제한 사항 및 향후 작업
- 도메인 격차가 남아 있음: 극단적인 조명(예: 역광 실루엣)이나 고반사 재료는 여전히 모델의 재구성 품질에 도전한다.
- 데이터 편향: 사전 학습 코퍼스는 규모가 크지만 인기 있는 동영상 플랫폼의 인구통계를 반영한다; 대표성이 낮은 체형은 약간 더 높은 오류를 보일 수 있다.
- 세부 디테일 포착: 피부 모공이나 가는 머리카락 같은 미세 기하학은 명시적으로 모델링되지 않는다; 향후 작업에서는 신경 표면 디테일 필드를 통합할 수 있다.
- 인터랙티브 편집: 현재 잠재 코드들은 직접 조작하기에 아직 사용자 친화적이지 않다; 직관적인 제어 인터페이스 개발이 열려 있는 방향이다.
전반적으로, LCA는 대규모 두 단계 학습 체제가 오랫동안 3D 아바타 생성에 걸림돌이 되어 온 충실도‑일반화 간극을 메울 수 있음을 보여주며, 몰입형이며 개발자에게 바로 사용할 수 있는 디지털 휴먼의 새로운 세대에 대한 문을 연다.
저자
- Junxuan Li
- Rawal Khirodkar
- Chengan He
- Zhongshi Jiang
- Giljoo Nam
- Lingchen Yang
- Jihyun Lee
- Egor Zakharov
- Zhaoen Su
- Rinat Abdrashitov
- Yuan Dong
- Julieta Martinez
- Kai Li
- Qingyang Tan
- Takaaki Shiratori
- Matthew Hu
- Peihong Guo
- Xuhua Huang
- Ariyan Zarei
- Marco Pesavento
- Yichen Xu
- He Wen
- Teng Deng
- Wyatt Borsos
- Anjali Thakrar
- Jean‑Charles Bazin
- Carsten Stoll
- Ginés Hidalgo
- James Booth
- Lucy Wang
- Xiaowen Ma
- Yu Rong
- Sairanjith Thalanki
- Chen Cao
- Christian Häne
- Abhishek Kar
- Sofien Bouaziz
- Jason Saragih
- Yaser Sheikh
- Shunsuke Saito
논문 정보
- arXiv ID: 2604.02320v1
- 분류: cs.CV, cs.GR
- 출판일: 2026년 4월 2일
- PDF: PDF 다운로드