[Paper] Diffusion Models를 활용한 얼굴 임베딩 기반 실감 나는 얼굴 재구성

발행: 3일 전 (2026년 2월 14일 오전 03:28 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.13168v1

개요

이 논문은 **FEM (Face Embedding Mapping)**을 소개한다. 이는 최신 얼굴 인식(FR) 및 프라이버시 보호 얼굴 인식(PPFR) 시스템에서 생성되는 압축된 얼굴 임베딩을 고해상도, 사진처럼 사실적인 얼굴 이미지로 복원할 수 있는 새로운 공격 파이프라인이다. Kolmogorov‑Arnold Network (KAN)를 사전 학습된 신원 보존 확산 모델과 결합함으로써, 저자들은 “보호된” 임베딩조차도 인식 가능한 얼굴을 재구성할 만큼 충분한 정보를 누출한다는 것을 보여주며, 배포된 생체인식 서비스에 대한 새로운 프라이버시 우려를 제기한다.

주요 기여

FEM 프레임워크: KAN 기반 매퍼와 디퓨전 디코더를 사용하여 모든 얼굴 임베딩을 현실적인 이미지로 매핑하는 범용 플러그‑앤‑플레이 파이프라인.
임베딩‑투‑라텐트 변환을 위한 KAN: Kolmogorov‑Arnold 네트워크가 저차원 임베딩과 디퓨전 모델의 라텐트 공간 사이의 고도로 비선형적인 관계를 효율적으로 학습할 수 있음을 보여준다.
부분 및 보호된 임베딩에 대한 견고성: 이 방법은 임베딩 차원의 일부만 사용 가능하거나 프라이버시를 위해 의도적으로 난독화된 임베딩일 경우에도 작동한다.
크로스‑시스템 누출 시연: 재구성된 얼굴이 훈련에 사용되지 않은 여러 상용 얼굴 인식(FR) 서비스에 성공적으로 인증되어 실제 프라이버시 누출을 확인한다.
평가 도구: FEM을 새로운 FR/PPFR 파이프라인의 프라이버시 보존 강도를 측정하는 실용적인 벤치마크로 제안한다.

방법론

Embedding Extraction – 대상 FR(얼굴 인식) 또는 PPFR(프라이버시 보호 얼굴 인식) 시스템은 신원 정보를 인코딩하는 고정 크기 벡터(예: 512‑D)를 출력한다.
KAN Mapper – 경량 Kolmogorov‑Arnold Network(KAN)는 이 임베딩을 확산 모델의 잠재 공간으로 매핑하는 결정론적 함수를 학습한다. KAN은 얕은 구조로 모든 연속 함수를 근사할 수 있어 학습이 빠르고 안정적이라는 장점이 있다.
Identity‑Preserving Diffusion Decoder – 사전 학습된 확산 모델(예: 얼굴에 맞게 파인‑튜닝된 Stable Diffusion)이 잠재 코드를 받아들여 반복적으로 노이즈를 제거해 고해상도 이미지로 복원한다. 모델은 원본 임베딩의 신원 단서를 유지하도록 강제하는 아이덴티티 손실(identity loss)에 조건화된다.
Training Loop – KAN과 확산 디코더는 공개 얼굴 데이터셋(예: CelebA‑HQ, FFHQ)에서 공동으로 최적화된다. 손실 함수는 픽셀 수준 재구성, 지각적 유사성, 그리고 명시적인 임베딩 매칭 항을 결합한다.
Evaluation – 재구성된 이미지는 여러 상용 및 오픈‑소스 FR API(예: ArcFace, FaceNet)에 입력되어 인증 성공률을 측정한다. 실험에서는 임베딩 차원이 누락된 경우와 양자화·무작위 마스킹 등 일반적인 프라이버시 메커니즘으로 변형된 임베딩을 사용하는 시나리오도 테스트한다.

Source: …

결과 및 발견

시나리오	검증 성공률 (다른 FR 시스템에 의해 재식별)
전체, 정제된 임베딩	≈ 78 % top‑1 매치
50 % 무작위 차원 드롭아웃	≈ 62 %
양자화(8‑bit) 임베딩	≈ 70 %
단순 가산 노이즈(σ=0.1)로 보호된 임베딩	≈ 55 %

재구성된 얼굴은 압축된 벡터에서 생성되었음에도 불구하고 자세, 조명, 표정 등 세밀한 속성을 유지합니다.
대상 FR 모델이 아키텍처와 학습 데이터가 다르더라도 교차‑시스템 공격이 성공하여, 정보 누출이 특정 분류기가 아니라 임베딩 자체에 내재되어 있음을 보여줍니다.
시각적 검토 결과, 디퓨전 디코더가 최신 얼굴 생성 기술에 필적하는 사진 수준의 사실적인 결과를 만들어내며, 이전 GAN 기반 역전 시도들을 크게 능가합니다.

실용적 시사점

Privacy Audits – PPFR 솔루션을 배포하는 기업은 FEM을 “레드‑팀” 도구로 사용하여 임베딩에서 얼마나 많은 신원 정보가 유출되는지 정량화할 수 있다.
Regulatory Compliance – 임베딩을 역추적할 수 있다면 GDPR‑스타일 “가명화”가 충분하지 않을 수 있음을 보여주며, 보다 엄격한 데이터‑처리 정책을 요구한다.
Design of Safer Embeddings – FEM과 같은 공격에도 견딜 수 있는 임베딩 강화 기법(예: 차등 개인정보 보호, 적대적 교란) 연구를 장려한다.
Security‑Aware SDKs – 인증 SDK 개발자는 원시 임베딩 노출을 제한하는 런타임 검사를 통합할 수 있다(예: 디바이스 내 검증, 암호화 전송).
Synthetic Data Generation – 동일한 파이프라인을 활용해 익명화된 임베딩으로 현실적인 아바타를 생성할 수 있으며, 신원 보존이 선택적인 VR/AR 또는 게임에 유용하다.

제한 사항 및 향후 작업

강력한 diffusion 사전 모델에 대한 의존성 – 재구성 품질은 잘 훈련되고 신원을 보존하는 diffusion 모델의 가용성에 달려 있으며, 이러한 모델을 훈련하는 데는 많은 계산 비용이 필요합니다.
데이터셋 편향 – 실험은 주로 서구 중심의 공개 얼굴 데이터셋에 한정되어 있어, 소수 인구 집단에 대한 성능은 아직 명확하지 않습니다.
부분 임베딩 시나리오 – 방법은 일부 누락된 차원을 허용하지만, 극심한 희소성(예: 특징의 10 % 미만)에서는 여전히 실패합니다.
향후 방향 – 저자들은 프라이버시 메커니즘(예: 동형 암호화)과 FEM의 보다 긴밀한 통합, 비디오 스트림 임베딩에 대한 공격 확장, 그리고 최신 트랜스포머 기반 얼굴 인식 백본에 대한 견고성 평가를 탐구할 것을 제안합니다.

저자

Dong Han
Yong Li
Joachim Denzler

논문 정보

arXiv ID: 2602.13168v1
Categories: cs.CV, cs.LG
Published: 2026년 2월 13일
PDF: PDF 다운로드

[Paper] Diffusion Models를 활용한 얼굴 임베딩 기반 실감 나는 얼굴 재구성

개요

주요 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 효과적인 것을 모방하기: Simulation-Filtered Modular Policy Learning from Human Videos

[Paper] 악천후 조건에서 자율주행 차량의 Object Detection 견고성

[Paper] 의미론적 청킹과 자연 언어의 엔트로피

[Paper] FlexAM: 유연한 Appearance-Motion 분해를 통한 다목적 비디오 생성 제어