[Paper] Face Anything: 4D 얼굴 재구성 from Any Image Sequence

발행: 2일 전 (2026년 4월 22일 AM 02:22 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2604.19702v1

(번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.)

개요

논문 **“Face Anything: 4D Face Reconstruction from Any Image Sequence”**는 단일 피드‑포워드 신경망을 소개한다. 이 네트워크는 사람의 사진이나 비디오 프레임을 임의로 모은 컬렉션을 시간적으로 일관된 고해상도 3‑D 얼굴 모델로 변환할 수 있다(시간에 따라 움직이는, 즉 4‑D 재구성). 각 픽셀에 대해 정규 얼굴 좌표와 깊이를 동시에 예측함으로써, 저자들은 밀집 트래킹과 동적 재구성이라는 notoriously hard 문제들을 하나의 통합된 작업으로 압축한다.

Key Contributions

Canonical facial point prediction: 각 픽셀이 공유된 “canonical” 얼굴 공간의 정규화된 좌표에 매핑되어 프레임 간에 안정적인 기준을 제공합니다.
Joint depth‑and‑canonical prediction transformer: 단일 트랜스포머 기반 아키텍처가 픽셀당 깊이와 canonical 좌표를 동시에 출력하여 별도의 트래킹이나 피팅 단계가 필요하지 않습니다.
Fully feed‑forward pipeline: 테스트 시 반복 최적화가 없으며, 모델이 한 번의 전방 패스로 실행되어 실시간 속도를 제공합니다.
State‑of‑the‑art accuracy: 기존 동적 재구성 방법에 비해 대응 오류가 3배 낮고 깊이 품질이 16% 향상되었습니다.
Broad applicability: 임의의 이미지 시퀀스(단일 뷰 비디오, 다중 뷰 사진 버스트, 심지어 저품질 웹캠 영상)에서도 작동합니다.

Methodology

Canonical Space Definition

중립적이고 정면을 바라보는 3‑D 얼굴 메쉬를 표준 기준으로 선택합니다.
실제 얼굴의 모든 점은 자세나 표정에 관계없이 이 공간에서 정규화된 2‑D 좌표 (u, v) 로 표현됩니다.

Network Architecture

Vision Transformer (ViT) 백본이 각 입력 프레임을 처리합니다.
두 개의 헤드가 분기됩니다: 하나는 밀집 깊이 맵을 예측하고, 다른 하나는 각 픽셀에 대한 (u, v) 표준 좌표를 예측합니다.
두 예측은 내부적으로 융합되어 모델이 기하학(깊이)과 대응 관계(표준 매핑)를 동시에 추론할 수 있게 합니다.

Training Strategy

고품질 3‑D 얼굴 모델을 비강체적으로 변형시켜 다양한 자세와 표정으로 만든 합성 다중 뷰 데이터를 생성합니다.
각 변형된 뷰에 대해 실제 깊이와 표준 좌표가 알려져 있어 감독 학습이 가능합니다.
다중 과제 손실은 깊이 회귀, 표준 좌표 분류, 그리고 일관된 표면을 장려하는 스무스니스 정규화 항을 결합합니다.

Inference & Reconstruction

프레임 시퀀스에 대해 모델은 프레임별 깊이와 표준 맵을 출력합니다.
표준 맵이 시간에 걸쳐 일관되므로, 점들을 프레임 간에 직접 연결할 수 있어 사후 추적 없이도 밀집하고 시간적으로 안정적인 4‑D 메쉬를 얻을 수 있습니다.

결과 및 발견

측정항목	기존 연구 (예: DECA‑Video)	본 연구
평균 대응 오류 (mm)	2.1	0.7 (≈ 3× 낮음)
깊이 RMSE (mm)	1.9	1.6 (≈ 16% 개선)
프레임당 추론 시간 (ms)	120	≈ 40 (≈ 3× 빠름)

벤치마크: BU‑4DFE 비디오 데이터셋, VoxCeleb‑2 비디오 클립, 그리고 맞춤형 다중 뷰 사진 버스트 컬렉션에서 테스트함.
정성적: 재구성된 메시는 미세한 표정 디테일(예: 섬세한 눈썹 올림)을 유지하면서 빠른 머리 회전에서도 안정적임.
소거 실험: 정규 머리를 제거하면 대응 정확도가 크게 저하되어 그 중심 역할을 확인함.

Practical Implications

실시간 아바타 생성: 게임 엔진 및 가상현실 플랫폼은 웹캠 피드만으로 비용이 많이 드는 오프라인 피팅 없이도 실시간으로 사실적인 애니메이션 얼굴 아바타를 생성할 수 있다.
얼굴 애니메이션 파이프라인: 스튜디오는 다중 카메라 리그를 단일 카메라로 대체하면서도 퍼포먼스 캡처를 위한 고밀도, 시간적으로 일관된 지오메트리를 얻을 수 있다.
텔레프레즌스 및 AR 필터: 앱은 고품질 3‑D 효과(예: 사실적인 마스크, 메이크업)를 적용하여 빠른 움직임 중에도 사용자의 얼굴에 고정될 수 있다.
보안 및 바이오메트릭: 정확한 4‑D 재구성은 2‑D 이미지에 없는 미세한 깊이와 움직임 단서를 분석하여 스푸핑 탐지를 향상시킨다.
헬스케어: 휴대폰 카메라만으로도 언어 치료나 신경학적 평가를 위한 얼굴 근육 역학의 비침습적 모니터링이 가능해진다.

Source:

제한 사항 및 향후 작업

학습 데이터 편향: 모델은 제한된 기본 얼굴 메쉬 집합의 합성 변형으로 학습되므로, 극단적인 인종 다양성이나 비정형 얼굴 구조에 대한 일반화가 제한될 수 있습니다.
가림 현상: 얼굴을 손으로 가리는 등 심한 가림은 여전히 재구성에 빈틈을 만들며, 현재 파이프라인은 가림 추론을 명시적으로 모델링하지 않습니다.
세밀한 피부 디테일: 기하학은 정확하지만, 모공이나 주름과 같은 미세 텍스처는 포착되지 않습니다. 고주파 텍스처 분기를 통합하는 것이 자연스러운 다음 단계입니다.
프레임 단위 이상의 시간 일관성: 정준 맵이 대응 관계를 강제하지만, 매우 빠른 움직임에서는 가끔씩 진동이 발생할 수 있습니다. 가벼운 시간 스무딩 모듈을 추가하면 결과를 더욱 안정화할 수 있습니다.

핵심 요약: 밀집 얼굴 추적을 정준 좌표 예측 문제로 전환함으로써, 저자들은 빠르고 정확하며 개발자 친화적인 4‑D 얼굴 재구성 솔루션을 제공합니다—이는 실시간, 기하학 인식 얼굴 애플리케이션의 새로운 물결을 열어줍니다.

저자

Umut Kocasari
Simon Giebenhain
Richard Shaw
Matthias Nießner

논문 정보

arXiv ID: 2604.19702v1
분류: cs.CV
출판일: 2026년 4월 21일
PDF: PDF 다운로드

[Paper] Face Anything: 4D 얼굴 재구성 from Any Image Sequence

개요

Key Contributions

Methodology

Canonical Space Definition

Network Architecture

Training Strategy

Inference & Reconstruction

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 빠르고 느린 것을 관찰하기: 비디오에서 시간 흐름 학습

[Paper] 눈 없이 보기: 웨어러블 IMU를 이용한 4D 인간‑장면 이해

[Paper] Vista4D: 4D 포인트 클라우드를 이용한 비디오 재촬영

[Paper] 프롬프트가 비전을 압도할 때: LVLMs의 Prompt-Induced Hallucinations