[Paper] LayerGS: 2D Gaussian Splatting을 이용한 레이어드 3D 인간 아바타의 분해 및 인페인팅

발행: (2026년 1월 10일 오전 12:30 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2601.05853v1

개요

새로운 프레임워크인 LayerGS는 사람의 단일 비디오를 완전히 애니메이션화할 수 있는 다중 레이어 3D 아바타로 변환합니다—신체와 각 의상을 분리합니다. 각 레이어를 2‑D Gaussian splats로 표현하고 diffusion model을 사용해 “숨겨진 부분을 채색”함으로써, 시스템은 새로운 포즈와 시점에서도 일관성을 유지하는 사진처럼 사실적인 렌더링을 생성합니다. 이는 현실적인 가상 착용(Virtual Try‑On)과 몰입형 아바타 제작의 문을 엽니다.

핵심 기여

  • Layer‑wise Gaussian Splatting: 몸체와 각 의류 아이템을 독립적인 2‑D 가우시안 집합으로 인코딩하여 세밀한 기하학을 보존하면서도 렌더링을 빠르고 메모리 효율적으로 유지합니다.
  • Diffusion‑based Inpainting: 사전 학습된 2‑D 디퓨전 모델(Score‑Distillation Sampling 사용)을 활용해 입력 비디오에 전혀 나타나지 않은 가려진 의류 영역을 채웁니다.
  • Three‑Stage Training Pipeline:
    1. 거친 정규 의류 재구성(단일 레이어).
    2. 몸체와 외부 레이어 디테일을 모두 정제하는 공동 다중 레이어 최적화.
    3. 디퓨전 기반 인페인팅을 이용한 최종 미세 조정.
  • State‑of‑the‑Art Results: 시각적 품질과 정량적 분해 메트릭 모두에서 4D‑Dress와 Thuman2.0 벤치마크에서 기존 단일 레이어 및 다중 레이어 방법들을 능가합니다.
  • Open‑Source Release: 전체 코드와 사전 학습 모델이 공개되어 빠른 도입과 추가 연구를 촉진합니다.

방법론

  1. Data Capture: 사람의 임의 자세를 담은 짧은 비디오를 처리하여 다중 뷰 이미지와 대략적인 정규 자세를 추출합니다.
  2. Gaussian Splatting per Layer:
    • 각 레이어(몸, 셔츠, 바지 등)는 3‑D 공간에 배치된 2‑D Gaussian 원시 요소 집합으로 모델링됩니다.
    • Gaussian은 가볍게 렌더링할 수 있으며—스플랫된 블롭들의 가중합일 뿐—밀집 샘플링 시 고주파 표면 디테일을 포착할 수 있습니다.
  3. Stage‑1: Coarse Single‑Layer Reconstruction
    • 기본 Gaussian‑splatting 파이프라인이 거친 “정규 의상” 메쉬를 구축하여 가장 바깥쪽 의상 레이어의 초기 기하학을 제공합니다.
  4. Stage‑2: Multi‑Layer Joint Optimization
    • 몸 레이어와 외부 의상 레이어를 동시에 최적화합니다.
    • 미분 가능한 렌더러가 광도 손실(색상, 실루엣)을 역전파하면서 레이어 간 일관성(예: 상호 침투 방지)을 강제합니다.
  5. Stage‑3: Diffusion‑Driven Inpainting
    • 보이지 않는 의상 영역(예: 절대 보이지 않은 셔츠 뒤쪽)을 사전 학습된 2‑D diffusion 모델을 사용해 채웁니다.
    • Score‑Distillation Sampling (SDS)은 diffusion 모델을 손실 함수로 취급하여 Gaussian 파라미터를 diffusion 모델이 타당하다고 판단하는 텍스처로 유도합니다.
  6. Animation & Re‑posing: 정규 레이어들을 표준 스켈레톤 스키닝 파이프라인으로 리깅하여, 학습된 레이어 구분을 유지하면서 아바타를 자유롭게 자세를 바꿀 수 있게 합니다.

결과 및 발견

  • 시각적 충실도: 렌더링된 아바타는 선명한 가장자리, 현실적인 옷감 음영, 그리고 극단적인 시점에서도 정확한 레이어 간 가림 현상을 보여줍니다.
  • 정량적 향상: 4D‑Dress에서 LayerGS는 이전 최고 다중 레이어 방법에 비해 PSNR을 약 1.2 dB 향상시키고 LPIPS를 약 15 % 감소시켰습니다.
  • 강인한 가림 처리: 확산‑인페인팅 단계는 보이지 않는 의상 부분을 성공적으로 복원했으며, 사용자 연구에서 참가자들이 해당 영역이 촬영된 것인지 합성된 것인지 신뢰할 만하게 구분하지 못함이 확인되었습니다.
  • 실시간 렌더링: 가우시안 스플랫 표현 덕분에 최신 GPU에서 30 fps 이상의 인터랙티브 프레임 레이트가 가능해져, 실시간 애플리케이션에 실용적인 접근 방식을 제공합니다.

Practical Implications

  • Virtual Try‑On & E‑Commerce: 브랜드는 고객의 몸을 재사용 가능한 3‑D 모델로 생성하고 여러 의류 레이어를 겹쳐서 전체 몸 스캔 없이도 현실적인 착용 미리보기를 제공할 수 있다.
  • Game & Metaverse Avatars: 개발자는 짧은 비디오만으로 고품질의 애니메이션 가능한 아바타를 만들 수 있어 자산 제작 비용과 시간을 절감하고, 실시간으로 의상을 교체할 수 있는 유연성을 유지한다.
  • AR/VR Content Creation: 가벼운 가우시안 표현은 모바일 및 헤드셋 GPU와 잘 맞아, 디바이스 내에서 아바타 렌더링을 가능하게 하여 몰입형 경험을 제공한다.
  • Digital Twins & Simulation: 몸과 의류를 정확히 분리함으로써 전체 모델을 재학습하지 않고도 정적 바디 메시에 물리 기반 시뮬레이션(예: 옷감 드레이핑)을 적용할 수 있다.

제한 사항 및 향후 작업

  • Diffusion 모델 품질 의존성: 인페인팅 품질은 사전 학습된 diffusion 모델의 학습 데이터에 의해 제한되며, 이국적인 직물이나 패턴이 부정확하게 렌더링될 수 있습니다.
  • 단일 인물 캡처: 현재 파이프라인은 영상당 하나의 피사체를 가정하고 있으며, 다중 인물 장면으로 확장하려면 추가적인 세그멘테이션 처리가 필요합니다.
  • 가우시안 밀도 강직성: 효율적이지만, 가우시안은 메쉬 기반 표현에 비해 매우 섬세한 디테일(예: 레이스) 처리에 어려움을 겪을 수 있습니다.
  • 향후 방향: 저자들은 학습 가능한 의류 물리 레이어 통합, 다중 인물 분해 탐색, 그리고 도메인 특화 의류 데이터셋에 diffusion 모델을 미세 조정하여 텍스처 현실감을 향상시키는 방안을 제시합니다.

저자

  • Yinghan Xu
  • John Dingliana

논문 정보

  • arXiv ID: 2601.05853v1
  • 분류: cs.CV, cs.AI, cs.GR
  • 발표일: 2026년 1월 9일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »