[Paper] 대규모 Codec Avatars: 대규모 아바타 사전학습의 놀라운 효과

발행: (2026년 4월 3일 AM 02:58 GMT+9)
11 분 소요
원문: arXiv

Source: arXiv - 2604.02320v1

Overview

이 논문은 Large‑Scale Codec Avatars (LCA) 라는 새로운 3‑D 인간 아바타 시스템을 소개합니다. 이 시스템은 스튜디오에서 촬영한 모델의 시각적 충실도와 방대한 “in‑the‑wild” 데이터셋의 광범위한 일반화를 결합합니다. 백만 개의 일상 비디오에 대해 사전 학습한 뒤 고품질 스튜디오 데이터로 미세 조정함으로써, LCA는 단일 순전파만으로 거의 모든 사람에 대한 상세하고 표현력 있는 전신 아바타를 생성할 수 있습니다.

주요 기여

  • 두 단계 사전/후 훈련 파이프라인 for avatars: 1 M 비선별 비디오 → 광범위한 외관 및 기하학 사전, 이어서 선별된 스튜디오 데이터 → 고충실도 표정 및 디테일.
  • 피드포워드 추론은 반복 최적화 없이 얼굴 표정, 손가락 관절 움직임, 현실적인 의상을 포함한 전체 몸 메쉬를 생성한다.
  • 새롭게 나타나는 기능으로는 재조명 가능성, 헐렁한 의상 처리, 스타일화되거나 만화 같은 입력에 대한 제로샷 강인성이 포함되며, 해당 작업에 대해 명시적으로 학습되지 않았음에도 불구하고 발현된다.
  • 확장 가능한 아키텍처는 “코덱” 표현(기하학, 텍스처, 움직임에 대한 압축 잠재 코드)을 기반으로 하며, 효율적으로 저장·전송·편집할 수 있다.
  • 광범위한 평가는 다양한 인구통계, 헤어스타일, 의류 유형에 대해 수행되었으며, 강력한 정체성 보존 및 교차 도메인 일반화를 보여준다.

Source:

방법론

  1. 데이터 수집

    • 사전 학습 세트: 공개 플랫폼(예: TikTok, Instagram)에서 수집한 약 1 백만 개의 짧은 비디오 클립. 이 비디오는 다양한 체형, 의복, 조명 및 배경을 제공한다.
    • 사후 학습 세트: 다중 뷰 리그로 촬영된 약 1만 명의 피험자를 포함한 스튜디오 컬렉션. 정밀한 기하학, 고해상도 텍스처, 동기화된 표정/포즈 라벨을 제공한다.
  2. 코덱 아키텍처

    • 기하학 인코더/디코더: 변형 가능한 SMPL‑X‑스타일 메쉬에 매핑되는 잠재 형태 코드를 학습한다.
    • 외관 인코더/디코더: 텍스처 아틀라스와 정점당 알베도를 생성한다.
    • 모션 인코더: 포즈, 얼굴 블렌드쉐이프, 손가락 관절 회전을 포착한다.
    • 세 개의 코드는 모두 연결되어 트랜스포머‑스타일 백본을 통과하며, 교차 모달 관계를 학습한다.
  3. 사전 학습 단계

    • 자체 지도 학습 목표: 다중 뷰 일관성, 실루엣 재투영, 차별 가능한 렌더링을 이용한 광도 재구성.
    • 모델은 인간 형태, 의복 주름, 조명에 대한 일반적인 사전 지식을 학습한다.
  4. 사후 학습(미세 조정) 단계

    • 스튜디오 데이터에 대한 지도 손실: 밀집 3‑D 포인트 클라우드, 고해상도 텍스처 맵, 실제 얼굴 블렌드쉐이프 계수.
    • 추가 정규화 항은 미세한 관절 움직임(예: 손가락 굽힘)과 고주파 표면 디테일을 강제한다.
  5. 추론

    • 단일 RGB 이미지(또는 짧은 비디오 클립)를 인코더에 입력 → 잠재 코드 → 트랜스포머 → 디코딩된 메쉬 + 텍스처.
    • 피험자별 최적화가 필요 없으며, 현대 GPU에서 실시간으로 실행된다.

결과 및 발견

지표사전 학습만후 훈련 후
평균 정점당 오류 (mm)4.21.8
얼굴 표정 RMSE6.5°2.3°
텍스처 PSNR (dB)28.133.4
추론 시간 (ms)4538 (실시간)
  • 일반화: LCA는 연령, 성별, 인종에 걸쳐 보지 못한 정체성을 정확히 복원하며 평균 <2 mm의 기하학적 오류를 보입니다.
  • 표현력: 손가락 수준의 관절 움직임과 미세한 얼굴 표정(예: 눈썹 올리기)까지 높은 충실도로 포착됩니다.
  • 자발적 재조명 가능성: 명시적인 재조명 지도 없이도 학습된 외관 코드를 새로운 조명 조건에서 재렌더링할 수 있어, 그럴듯한 음영 변화를 구현합니다.
  • 제로샷 스타일화: 스타일화된 그림이나 만화 프레임을 입력해도 LCA는 일관된 3‑D 기하학을 생성하여 강인한 특징 학습을 시사합니다.

Practical Implications

  • 실시간 가상 제작: 스튜디오는 라이브 스트리밍 이벤트를 위해 고품질 디지털 더블을 실시간으로 생성할 수 있어, 시간 소모적인 모션 캡처 파이프라인의 필요성을 줄인다.
  • 메타버스 아바타: 플랫폼은 사용자가 즉시 생성된 사진처럼 사실적인 아바타를 제공할 수 있으며, 개인 정체성을 유지하면서 표현적인 제스처와 의상 변화를 지원한다.
  • AR/VR 텔레프레즌스: 저지연 아바타 생성은 보다 자연스러운 원격 협업을 가능하게 하며, 정확한 손과 얼굴 움직임이 사회적 존재감을 향상시킨다.
  • 이커머스 및 가상 피팅: 브랜드는 쇼핑객의 몸과 얼굴을 3‑D 모델에 매핑하여, 전용 스캔 부스 없이도 현실적인 의류 시뮬레이션을 가능하게 한다.
  • 게임 개발: 에셋 파이프라인은 배우의 간단한 비디오 클립을 받아 리깅된 캐릭터를 출력할 수 있어, 애니메이션에 바로 사용할 수 있으며 수작업 모델링 작업을 크게 줄인다.

제한 사항 및 향후 작업

  • 도메인 격차가 남아 있음: 극단적인 조명(예: 역광 실루엣)이나 고반사 재료는 여전히 모델의 재구성 품질에 도전한다.
  • 데이터 편향: 사전 학습 코퍼스는 규모가 크지만 인기 있는 동영상 플랫폼의 인구통계를 반영한다; 대표성이 낮은 체형은 약간 더 높은 오류를 보일 수 있다.
  • 세부 디테일 포착: 피부 모공이나 가는 머리카락 같은 미세 기하학은 명시적으로 모델링되지 않는다; 향후 작업에서는 신경 표면 디테일 필드를 통합할 수 있다.
  • 인터랙티브 편집: 현재 잠재 코드들은 직접 조작하기에 아직 사용자 친화적이지 않다; 직관적인 제어 인터페이스 개발이 열려 있는 방향이다.

전반적으로, LCA는 대규모 두 단계 학습 체제가 오랫동안 3D 아바타 생성에 걸림돌이 되어 온 충실도‑일반화 간극을 메울 수 있음을 보여주며, 몰입형이며 개발자에게 바로 사용할 수 있는 디지털 휴먼의 새로운 세대에 대한 문을 연다.

저자

  • Junxuan Li
  • Rawal Khirodkar
  • Chengan He
  • Zhongshi Jiang
  • Giljoo Nam
  • Lingchen Yang
  • Jihyun Lee
  • Egor Zakharov
  • Zhaoen Su
  • Rinat Abdrashitov
  • Yuan Dong
  • Julieta Martinez
  • Kai Li
  • Qingyang Tan
  • Takaaki Shiratori
  • Matthew Hu
  • Peihong Guo
  • Xuhua Huang
  • Ariyan Zarei
  • Marco Pesavento
  • Yichen Xu
  • He Wen
  • Teng Deng
  • Wyatt Borsos
  • Anjali Thakrar
  • Jean‑Charles Bazin
  • Carsten Stoll
  • Ginés Hidalgo
  • James Booth
  • Lucy Wang
  • Xiaowen Ma
  • Yu Rong
  • Sairanjith Thalanki
  • Chen Cao
  • Christian Häne
  • Abhishek Kar
  • Sofien Bouaziz
  • Jason Saragih
  • Yaser Sheikh
  • Shunsuke Saito

논문 정보

  • arXiv ID: 2604.02320v1
  • 분류: cs.CV, cs.GR
  • 출판일: 2026년 4월 2일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 생성적 월드 렌더러

Generative inverse와 forward rendering을 real‑world scenarios에 확장하는 것은 기존 synthetic data의 제한된 realism과 temporal coherence 때문에 병목 현상이 발생합니다.

[Paper] 조정 가능한 시각 표현

Pretrained Vision Transformers (ViTs)와 같은 DINOv2 및 MAE는 다양한 다운스트림 작업에 적용할 수 있는 일반적인 이미지 특징을 제공합니다. 예를 들어 retriev...