[Paper] 대규모 Codec Avatars: 대규모 아바타 사전학습의 놀라운 효과

발행: 1일 전 (2026년 4월 3일 AM 02:58 GMT+9)

11 분 소요

원문: arXiv

Source: arXiv - 2604.02320v1

Overview

이 논문은 Large‑Scale Codec Avatars (LCA) 라는 새로운 3‑D 인간 아바타 시스템을 소개합니다. 이 시스템은 스튜디오에서 촬영한 모델의 시각적 충실도와 방대한 “in‑the‑wild” 데이터셋의 광범위한 일반화를 결합합니다. 백만 개의 일상 비디오에 대해 사전 학습한 뒤 고품질 스튜디오 데이터로 미세 조정함으로써, LCA는 단일 순전파만으로 거의 모든 사람에 대한 상세하고 표현력 있는 전신 아바타를 생성할 수 있습니다.

주요 기여

두 단계 사전/후 훈련 파이프라인 for avatars: 1 M 비선별 비디오 → 광범위한 외관 및 기하학 사전, 이어서 선별된 스튜디오 데이터 → 고충실도 표정 및 디테일.
피드포워드 추론은 반복 최적화 없이 얼굴 표정, 손가락 관절 움직임, 현실적인 의상을 포함한 전체 몸 메쉬를 생성한다.
새롭게 나타나는 기능으로는 재조명 가능성, 헐렁한 의상 처리, 스타일화되거나 만화 같은 입력에 대한 제로샷 강인성이 포함되며, 해당 작업에 대해 명시적으로 학습되지 않았음에도 불구하고 발현된다.
확장 가능한 아키텍처는 “코덱” 표현(기하학, 텍스처, 움직임에 대한 압축 잠재 코드)을 기반으로 하며, 효율적으로 저장·전송·편집할 수 있다.
광범위한 평가는 다양한 인구통계, 헤어스타일, 의류 유형에 대해 수행되었으며, 강력한 정체성 보존 및 교차 도메인 일반화를 보여준다.

Source: …

방법론

데이터 수집
- 사전 학습 세트: 공개 플랫폼(예: TikTok, Instagram)에서 수집한 약 1 백만 개의 짧은 비디오 클립. 이 비디오는 다양한 체형, 의복, 조명 및 배경을 제공한다.
- 사후 학습 세트: 다중 뷰 리그로 촬영된 약 1만 명의 피험자를 포함한 스튜디오 컬렉션. 정밀한 기하학, 고해상도 텍스처, 동기화된 표정/포즈 라벨을 제공한다.
코덱 아키텍처
- 기하학 인코더/디코더: 변형 가능한 SMPL‑X‑스타일 메쉬에 매핑되는 잠재 형태 코드를 학습한다.
- 외관 인코더/디코더: 텍스처 아틀라스와 정점당 알베도를 생성한다.
- 모션 인코더: 포즈, 얼굴 블렌드쉐이프, 손가락 관절 회전을 포착한다.
- 세 개의 코드는 모두 연결되어 트랜스포머‑스타일 백본을 통과하며, 교차 모달 관계를 학습한다.
사전 학습 단계
- 자체 지도 학습 목표: 다중 뷰 일관성, 실루엣 재투영, 차별 가능한 렌더링을 이용한 광도 재구성.
- 모델은 인간 형태, 의복 주름, 조명에 대한 일반적인 사전 지식을 학습한다.
사후 학습(미세 조정) 단계
- 스튜디오 데이터에 대한 지도 손실: 밀집 3‑D 포인트 클라우드, 고해상도 텍스처 맵, 실제 얼굴 블렌드쉐이프 계수.
- 추가 정규화 항은 미세한 관절 움직임(예: 손가락 굽힘)과 고주파 표면 디테일을 강제한다.
추론
- 단일 RGB 이미지(또는 짧은 비디오 클립)를 인코더에 입력 → 잠재 코드 → 트랜스포머 → 디코딩된 메쉬 + 텍스처.
- 피험자별 최적화가 필요 없으며, 현대 GPU에서 실시간으로 실행된다.

결과 및 발견

지표	사전 학습만	후 훈련 후
평균 정점당 오류 (mm)	4.2	1.8
얼굴 표정 RMSE	6.5°	2.3°
텍스처 PSNR (dB)	28.1	33.4
추론 시간 (ms)	45	38 (실시간)

일반화: LCA는 연령, 성별, 인종에 걸쳐 보지 못한 정체성을 정확히 복원하며 평균 <2 mm의 기하학적 오류를 보입니다.
표현력: 손가락 수준의 관절 움직임과 미세한 얼굴 표정(예: 눈썹 올리기)까지 높은 충실도로 포착됩니다.
자발적 재조명 가능성: 명시적인 재조명 지도 없이도 학습된 외관 코드를 새로운 조명 조건에서 재렌더링할 수 있어, 그럴듯한 음영 변화를 구현합니다.
제로샷 스타일화: 스타일화된 그림이나 만화 프레임을 입력해도 LCA는 일관된 3‑D 기하학을 생성하여 강인한 특징 학습을 시사합니다.

Practical Implications

실시간 가상 제작: 스튜디오는 라이브 스트리밍 이벤트를 위해 고품질 디지털 더블을 실시간으로 생성할 수 있어, 시간 소모적인 모션 캡처 파이프라인의 필요성을 줄인다.
메타버스 아바타: 플랫폼은 사용자가 즉시 생성된 사진처럼 사실적인 아바타를 제공할 수 있으며, 개인 정체성을 유지하면서 표현적인 제스처와 의상 변화를 지원한다.
AR/VR 텔레프레즌스: 저지연 아바타 생성은 보다 자연스러운 원격 협업을 가능하게 하며, 정확한 손과 얼굴 움직임이 사회적 존재감을 향상시킨다.
이커머스 및 가상 피팅: 브랜드는 쇼핑객의 몸과 얼굴을 3‑D 모델에 매핑하여, 전용 스캔 부스 없이도 현실적인 의류 시뮬레이션을 가능하게 한다.
게임 개발: 에셋 파이프라인은 배우의 간단한 비디오 클립을 받아 리깅된 캐릭터를 출력할 수 있어, 애니메이션에 바로 사용할 수 있으며 수작업 모델링 작업을 크게 줄인다.

제한 사항 및 향후 작업

도메인 격차가 남아 있음: 극단적인 조명(예: 역광 실루엣)이나 고반사 재료는 여전히 모델의 재구성 품질에 도전한다.
데이터 편향: 사전 학습 코퍼스는 규모가 크지만 인기 있는 동영상 플랫폼의 인구통계를 반영한다; 대표성이 낮은 체형은 약간 더 높은 오류를 보일 수 있다.
세부 디테일 포착: 피부 모공이나 가는 머리카락 같은 미세 기하학은 명시적으로 모델링되지 않는다; 향후 작업에서는 신경 표면 디테일 필드를 통합할 수 있다.
인터랙티브 편집: 현재 잠재 코드들은 직접 조작하기에 아직 사용자 친화적이지 않다; 직관적인 제어 인터페이스 개발이 열려 있는 방향이다.

전반적으로, LCA는 대규모 두 단계 학습 체제가 오랫동안 3D 아바타 생성에 걸림돌이 되어 온 충실도‑일반화 간극을 메울 수 있음을 보여주며, 몰입형이며 개발자에게 바로 사용할 수 있는 디지털 휴먼의 새로운 세대에 대한 문을 연다.

저자

Junxuan Li
Rawal Khirodkar
Chengan He
Zhongshi Jiang
Giljoo Nam
Lingchen Yang
Jihyun Lee
Egor Zakharov
Zhaoen Su
Rinat Abdrashitov
Yuan Dong
Julieta Martinez
Kai Li
Qingyang Tan
Takaaki Shiratori
Matthew Hu
Peihong Guo
Xuhua Huang
Ariyan Zarei
Marco Pesavento
Yichen Xu
He Wen
Teng Deng
Wyatt Borsos
Anjali Thakrar
Jean‑Charles Bazin
Carsten Stoll
Ginés Hidalgo
James Booth
Lucy Wang
Xiaowen Ma
Yu Rong
Sairanjith Thalanki
Chen Cao
Christian Häne
Abhishek Kar
Sofien Bouaziz
Jason Saragih
Yaser Sheikh
Shunsuke Saito

논문 정보

arXiv ID: 2604.02320v1
분류: cs.CV, cs.GR
출판일: 2026년 4월 2일
PDF: PDF 다운로드

[Paper] 대규모 Codec Avatars: 대규모 아바타 사전학습의 놀라운 효과

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] EventHub: 일반화 가능한 이벤트 기반 스테레오 네트워크를 위한 데이터 팩토리 (액티브 센서 없이)

[Paper] 생성적 월드 렌더러

[Paper] Modulate-and-Map: 교차모달 특징 매핑과 교차-뷰 변조를 이용한 3D 이상 탐지

[Paper] 조정 가능한 시각 표현