通过扩散模型从面部嵌入实现逼真人脸重建

发布: 3天前 (2026年2月14日 GMT+8 02:28)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.13168v1

请提供您希望翻译的具体文本内容，我将为您进行简体中文翻译，并保持原有的格式、Markdown 语法以及技术术语不变。

概述

本文介绍了 FEM（Face Embedding Mapping），这是一种新颖的攻击流水线，能够将现代人脸识别（FR）和隐私保护人脸识别（PPFR）系统生成的紧凑人脸嵌入恢复为高分辨率、逼真的人脸图像。通过将 Kolmogorov‑Arnold 网络（KAN）与预训练的保持身份信息的扩散模型相结合，作者展示了即使是“受保护”的嵌入也泄露了足够的信息，以重建可辨认的人脸，从而对已部署的生物识别服务提出了新的隐私担忧。

关键贡献

FEM 框架：一个通用的即插即用流水线，使用基于 KAN 的映射器和扩散解码器，将任何面部嵌入映射到真实图像。
KAN 用于嵌入到潜在空间的翻译：展示了 Kolmogorov‑Arnold 网络能够高效学习低维嵌入与扩散模型潜在空间之间的高度非线性关系。
对部分和受保护嵌入的鲁棒性：即使仅有嵌入维度的子集可用，或嵌入被有意模糊以保护隐私，方法仍能工作。
跨系统泄漏演示：重建的人脸能够在多个未在训练中使用的现成 FR 服务上成功认证，证实了真实世界的隐私泄漏。
评估工具：提出 FEM 作为衡量新 FR/PPFR 流水线隐私保护强度的实用基准。

方法论

Embedding Extraction – 目标 FR 或 PPFR 系统输出一个固定大小的向量（例如 512‑D），该向量编码身份信息。
KAN Mapper – 轻量级 Kolmogorov‑Arnold Network 学习从该嵌入到扩散模型潜在空间的确定性映射。KAN 之所以受青睐，是因为它们能够用浅层结构近似任意连续函数，使得训练快速且稳定。
Identity‑Preserving Diffusion Decoder – 预训练的扩散模型（例如针对人脸微调的 Stable Diffusion）接收潜在码，并通过迭代去噪将其转化为高分辨率图像。模型在身份损失上进行条件化，迫使输出保留原始嵌入的身份线索。
Training Loop – KAN 与扩散解码器在公开人脸数据集（如 CelebA‑HQ、FFHQ）上共同优化。损失函数结合像素级重建、感知相似度以及显式的嵌入匹配项。
Evaluation – 将重建图像送入多个商业和开源的 FR API（如 ArcFace、FaceNet）以测量验证成功率。实验还测试了缺失嵌入维度以及经过常见隐私机制（如量化、随机遮蔽）处理的嵌入的情形。

结果与发现

场景	验证成功率（由不同的人脸识别系统重新识别）
完整、干净的嵌入	≈ 78 % top‑1 匹配
50 % 随机维度丢弃	≈ 62 %
量化（8 位）嵌入	≈ 70 %
通过简单加性噪声（σ=0.1）保护的嵌入	≈ 55 %

重建的人脸仍然保留细粒度属性（姿态、光照、表情），即使它们是由紧凑向量生成的。
即使目标人脸识别模型在架构和训练数据上不同，跨系统攻击仍能成功，这表明泄漏是嵌入本身固有的，而不是特定分类器导致的。
视觉检查显示，扩散解码器产生的照片级真实感结果可与最先进的人脸生成技术相媲美，远超早期基于 GAN 的逆向尝试。

实际影响

隐私审计 – 部署 PPFR 解决方案的公司可以使用 FEM 作为“红队”工具，量化其嵌入中泄露了多少身份信息。
合规监管 – 表明如果嵌入可以被逆向，GDPR 式的“伪匿名化”可能不足，从而促使更严格的数据处理政策。
更安全的嵌入设计 – 鼓励研究嵌入硬化技术（例如差分隐私、对抗扰动），使其能够抵御类似 FEM 的攻击。
安全感知 SDK – 认证 SDK 开发者可以集成运行时检查，限制原始嵌入的暴露（例如设备端验证、加密传输）。
合成数据生成 – 同一流水线可用于从匿名嵌入生成逼真的化身，适用于身份保留可选的 VR/AR 或游戏场景。

限制与未来工作

依赖强大的扩散先验 – 重建质量取决于是否拥有经过良好训练、能够保持身份信息的扩散模型；训练此类模型计算成本高。
数据集偏差 – 实验仅限于公开的、主要以西方为中心的人脸数据集；对代表性不足的人口群体的性能尚不明确。
部分嵌入场景 – 虽然该方法能容忍部分维度缺失，但极度稀疏（例如特征少于 10 %）仍会失败。
未来方向 – 作者建议探索将隐私机制（如同态加密）与 FEM 更紧密地结合，将攻击扩展到视频流嵌入，并评估对新型基于 Transformer 的人脸识别骨干网络的鲁棒性。

作者

Dong Han
Yong Li
Joachim Denzler

论文信息

arXiv ID: 2602.13168v1
分类: cs.CV, cs.LG
发表时间: 2026年2月13日
PDF: 下载 PDF

通过扩散模型从面部嵌入实现逼真人脸重建

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 模仿有效方法：Simulation-Filtered Modular Policy Learning 来自人类视频

[Paper] CoPE-VideoLM：用于高效视频语言模型的 Codec 原语

[Paper] EPRBench：高质量基准数据集用于基于事件流的视觉位置识别

[Paper] 自动驾驶车辆在恶劣天气条件下的目标检测鲁棒性