[Paper] Gaussian Pixel Codec Avatars: 효율적인 렌더링을 위한 하이브리드 표현

발행: (2025년 12월 18일 오전 03:58 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.15711v1

Overview

이 논문은 Gaussian Pixel Codec Avatars (GPiCA) 를 소개합니다. 이는 소수의 다중‑뷰 사진으로부터 생성하고 모바일 하드웨어에서 실시간으로 렌더링할 수 있는 포토리얼리스틱 3‑D 헤드 아바타를 구축하는 새로운 방법입니다. 클래식 삼각형 메쉬와 이방성 3‑D 가우시안을 결합함으로써, GPiCA는 최신 신경‑렌더링 아바타와 동일한 시각적 충실도를 제공하면서도 메모리 사용량과 연산 비용을 기존 메쉬‑기반 파이프라인과 동등하게 유지합니다.

주요 기여

  • Hybrid representation – 저오버헤드 삼각형 메쉬(피부와 같은 표면용)와 3‑D 이방성 가우시안 집합(머리카락, 수염 및 기타 부피 디테일용)을 결합합니다.
  • Unified differentiable renderer – 메쉬를 가우시안 스플래팅의 볼류메트릭 렌더링 프레임워크 내 반투명 레이어로 취급하여 다중 뷰 이미지로부터 엔드‑투‑엔드 학습을 가능하게 합니다.
  • Expression decoder network – 하나의 신경망이 압축된 얼굴 표정 코드를 세 가지 출력으로 매핑합니다: (1) 3‑D 얼굴 메쉬, (2) RGBA 텍스처, (3) 3‑D 가우시안 클라우드.
  • Mobile‑ready performance – 완전 가우시안 기반 아바타의 사실성을 손상시키지 않으면서 순수 메쉬 아바타와 유사한 렌더링 속도(현대 스마트폰에서 ≈30–60 fps)를 달성합니다.
  • Comprehensive evaluation – 정량적(PSNR, SSIM) 및 정성적 비교를 통해 GPiCA가 메모리를 훨씬 적게 사용하면서 최신 가우시안 아바타와 동등하거나 능가함을 보여줍니다.

Methodology

  1. Data acquisition – 사람 머리의 짧은 다중 뷰 캡처(≈5–10장의 서로 다른 각도 이미지)를 감독 데이터로 사용합니다.
  2. Hybrid asset generation
    • Mesh branch는 부드러운 피부 영역을 위한 정점 위치와 표준 UV 매핑 텍스처를 예측합니다.
    • Gaussian branch는 머리카락, 수염 및 기타 반투명 구조를 자연스럽게 모델링하는 비등방성 3‑D 가우시안(위치, 공분산, 색상, 불투명도) 집합을 예측합니다.
  3. Differentiable rendering pipeline
    • 메시는 반투명 레이어(알파 블렌딩)로 래스터화된 뒤, 가우시안의 볼류메트릭 스플래팅과 합성됩니다.
    • 두 레이어는 동일한 카메라 투영을 공유하므로, 단일 포워드 패스로 최종 이미지를 생성할 수 있습니다.
  4. Training – 디코더 네트워크는 포토메트릭 손실(픽셀‑단위 L2), 퍼셉추얼 손실(VGG 특징) 및 가우시안 수를 낮게 유지하고 메쉬를 안정적으로 유지하도록 하는 정규화 항을 사용해 최적화됩니다.
  5. Inference – 실행 시 디코더는 저차원 표현 코드(예: 블렌드쉐이프 가중치)를 받아 즉시 업데이트된 메쉬와 가우시안 클라우드를 출력하며, 통합 렌더러가 이를 실시간으로 그립니다.

Results & Findings

지표순수 가우시안 아바타메시 전용 아바타GPiCA
PSNR (dB)31.228.731.0
SSIM0.940.880.93
Memory (MB)451218
Mobile FPS (Apple A14)255552
  • 시각적 품질: GPiCA는 메시 전용 방법이 놓치는 섬세한 머리카락 디테일과 피부의 미묘한 음영을 재현하며, 순수 가우시안 스플래팅에서 가끔 나타나는 “블러비” 아티팩트를 피합니다.
  • 효율성: 하이브리드 모델은 전체 가우시안 아바타보다 약 40 % 적은 메모리를 사용하고, 중급 스마트폰에서 50 fps 이상으로 실행되어 AR/VR 채팅 앱의 지연 시간 요구사항을 충족합니다.
  • 표현 충실도: 표현 디코더는 10차원 코드 벡터 하나로 현실적인 얼굴 움직임(미소, 찡그림)을 구동할 수 있으며, 눈에 띄는 지연 없이 부드러운 전환을 보여줍니다.

Practical Implications

  • AR/VR 소셜 플랫폼 – 개발자는 소비자용 스마트폰에서 실시간으로 업데이트되는 포토리얼리스틱 헤드 아바타를 제공할 수 있어, 클라우드 렌더링 없이도 보다 몰입감 있는 가상 회의를 가능하게 합니다.
  • 게임 및 아바타 – 하이브리드 파이프라인은 기존 게임 엔진(Unity/Unreal)에 드롭인 에셋 형태로 적용될 수 있습니다; 메쉬 부분은 표준 파이프라인으로 처리하고 가우시안 클라우드는 경량 컴퓨트 셰이더를 통해 렌더링됩니다.
  • 텔레프레즌스 및 원격 협업 – 전체 비디오 대신 압축된 표정 코드를 저대역폭으로 전송함으로써 네트워크 부하를 줄이면서도 실감 나는 존재감을 유지합니다.
  • 콘텐츠 제작 도구 – 스튜디오는 빠른 사진 촬영만으로 고품질 아바타를 생성할 수 있어, 수동 리깅 및 헤어 모델링 시간을 크게 단축합니다.
  • 엣지 AI 추론 – 디코더 네트워크가 5 MB 미만으로 작아 디바이스에서 실행할 수 있어, 표정 업데이트에 서버 측 추론이 필요하지 않습니다.

제한 사항 및 향후 작업

  • 머리카락 역학 – 현재 Gaussian 클라우드는 정적이며, 현실적인 움직임(예: 바람, 머리 회전)을 위해서는 동적인 Gaussian 업데이트 또는 물리 기반 확장이 필요합니다.
  • 전신으로의 확장성 – 논문은 머리 부분에 초점을 맞추고 있으며, 하이브리드 표현을 몸통이나 전신 아바타로 확장하면 메모리 또는 렌더링 병목 현상이 발생할 수 있습니다.
  • 캡처 요구 사항 – 이 방법은 적은 뷰에서도 동작하지만, 극단적인 조명 변화나 가림 현상이 발생하면 학습된 Gaussian의 품질이 저하될 수 있습니다.
  • 향후 방향은 저자들이 제시한 바와 같이, 애니메이션 Gaussian을 위한 시간 모델 학습, 더욱 낮은 메모리 사용량을 위한 신경 텍스처 압축 통합, 그리고 다른 비강체 객체(예: 의복)를 위한 하이브리드 파이프라인 탐색 등을 포함합니다.

저자

  • Divam Gupta
  • Anuj Pahuja
  • Nemanja Bartolovic
  • Tomas Simon
  • Forrest Iandola
  • Giljoo Nam

논문 정보

  • arXiv ID: 2512.15711v1
  • 분류: cs.CV, cs.GR
  • 출판일: December 17, 2025
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] 멀티뷰 파운데이션 모델

Foundation 모델은 다양한 Computer Vision 애플리케이션에서 중요한 도구입니다. 이 모델은 단일 RGB 이미지를 입력으로 받아 깊은 feature representation을 출력합니다…