[Paper] Face Anything: 4D 人脸重建来自任意图像序列

发布: 2天前 (2026年4月22日 GMT+8 01:22)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.19702v1

概述

论文 “Face Anything: 4D Face Reconstruction from Any Image Sequence” 介绍了一种单一的前馈神经网络，它可以将任意人物的照片或视频帧集合转换为时间上连贯的、高分辨率的 3‑D 人脸模型，并随时间运动（即 4‑D 重建）。通过为每个像素预测 canonical facial coordinate 以及深度，作者将长期以来极具挑战性的密集跟踪和动态重建问题合并为一个统一的任务。

关键贡献

规范面部点预测：每个像素映射到共享“规范”人脸空间中的归一化坐标，为跨帧提供稳定参考。
深度‑与‑规范联合预测 Transformer：单一基于 Transformer 的架构同时输出每像素深度和规范坐标，省去单独的跟踪或拟合阶段。
全前向流水线：测试时无需迭代优化；模型一次前向传播即可运行，实现实时速度。
业界领先的精度：相较于以往动态重建方法，对应误差降低 3 倍，深度质量提升 16%。
广泛适用性：适用于任意图像序列（单视角视频、多视角照片连拍，甚至低质量摄像头画面）。

方法论

规范空间定义

选取一个中性、正面朝向的 3‑D 人脸网格作为规范参考。
真实人脸上的每一点都在该空间中表示为归一化的 2‑D 坐标 (u, v)，与姿态或表情无关。

网络架构

使用 Vision Transformer (ViT) 主干处理每个输入帧。
两个分支头：一个预测稠密深度图，另一个预测每个像素的 (u, v) 规范坐标。
两个预测在内部融合，使模型能够联合推理几何（深度）和对应关系（规范映射）。

训练策略

通过对高质量 3‑D 人脸模型进行非刚性扭曲，生成多姿态、多表情的合成多视图数据。
对每个扭曲视图，已知真实深度和规范坐标，提供监督信号。
多任务损失结合深度回归、规范坐标分类以及平滑正则项，以鼓励表面的一致性。

推理与重建

对一系列帧，模型输出每帧的深度 + 规范映射。
由于规范映射在时间上保持一致，点可以直接在帧间链接，从而得到稠密、时间稳定的 4‑D 网格，无需任何后处理跟踪。

Results & Findings

指标	已有方法（例如 DECA‑Video）	本研究
平均对应误差（毫米）	2.1	0.7 (≈ 3× lower)
深度 RMSE（毫米）	1.9	1.6 (≈ 16% improvement)
每帧推理时间（毫秒）	120	≈ 40 (≈ 3× faster)

基准测试：在 BU‑4DFE 视频数据集、VoxCeleb‑2 视频片段以及自定义的多视角照片连拍集合上进行测试。
定性：重建的网格保留了细微的表情细节（例如轻微的眉毛抬起），并在快速转头时保持稳定。
消融实验：去除标准头部会显著降低对应精度，证实其核心作用。

实际意义

实时头像创建: 游戏引擎和虚拟现实平台可以从摄像头实时获取的画面即时生成逼真、动画化的面部头像，无需昂贵的离线拟合。
面部动画流水线: 工作室可以用单摄像头取代多摄像头装置，仍然获得密集且时间上连贯的几何信息用于表演捕捉。
远程呈现与 AR 滤镜: 应用程序可以应用高保真度的 3D 效果（例如逼真的面具、化妆），即使在快速运动时也能保持贴合用户面部。
安全与生物识别: 精确的 4D 重建通过分析二维图像缺乏的细微深度和运动线索，提高防伪检测能力。
医疗保健: 仅使用手机摄像头即可实现对面部肌肉动态的非侵入式监测，用于语言治疗或神经评估。

限制与未来工作

训练数据偏差：模型在有限的基础面部网格的合成变形上进行训练，这可能限制其对极端种族多样性或非典型面部结构的泛化能力。
遮挡：严重遮挡（例如手遮住面部）仍会导致重建出现空洞；当前流水线未显式建模遮挡推理。
细尺度皮肤细节：虽然几何精度高，但微纹理（如毛孔、皱纹）未被捕获；加入高频纹理分支是自然的下一步。
帧间一致性：尽管规范映射强制对应，但在非常快速的运动中仍可能出现轻微抖动；轻量级的时间平滑模块可以进一步稳定结果。

结论：通过将密集面部追踪转化为规范坐标预测问题，作者提供了一种快速、精准且开发者友好的 4‑D 面部重建方案——为新一波实时、几何感知的面部应用打开了大门。

作者

Umut Kocasari
Simon Giebenhain
Richard Shaw
Matthias Nießner

论文信息

arXiv ID: 2604.19702v1
类别: cs.CV
发表时间: 2026年4月21日
PDF: 下载 PDF

[Paper] Face Anything: 4D 人脸重建来自任意图像序列

概述

关键贡献

方法论

规范空间定义

网络架构

训练策略

推理与重建

Results & Findings

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 观察快与慢：学习视频中的时间流动

[论文] 无眼观察：来自可穿戴IMU的4D人类场景理解

[Paper] Vista4D：视频重新拍摄与4D点云

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中