[论文] Mesh4D：单目视频中的4D网格重建与跟踪

发布: 1个月前 (2026年1月9日 GMT+8 02:59)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.05251v1

概述

Mesh4D 引入了一种 单遍、前馈系统，能够将普通的单目视频（例如人物、动物或关节装置）转换为随时间变形的完整 3‑D 网格。通过学习整个动画的紧凑潜在表示，模型可以在没有额外传感器或多视角设置的情况下重建完整的 3‑D 形状 及其运动，为从日常影像实时生成 4‑D 内容打开了大门。

关键贡献

统一的潜在空间用于全序列动画 – 自动编码器将整个视频的变形场压缩为单个向量，实现一次性重建。
骨架引导的训练，推理时无需骨架 – 骨架先验仅在训练期间使用，以教会网络合理的变形，但模型在测试时直接处理原始视频。
时空注意力编码器 – 捕捉空间几何和时间动态，即使在快速或细微运动下也能产生稳定的表示。
用于动画预测的潜在扩散模型 – 以首帧网格和视频为条件，在一次前向传播中生成完整的4‑D网格序列。
在标准重建和新视角合成基准上取得最先进的结果，超越了之前的单目4‑D方法。

方法论

Data preprocessing – 每个训练视频都配有一个真实的 3‑D 网格序列（通过多视角捕获获得）和一个骨骼绑定。
Auto‑encoder backbone
- Encoder: 一个时空 transformer 处理视频帧，在空间补丁和时间步之间应用 attention。它输出一个单一潜在向量，概括整个动画。
- Decoder: 一个 mesh‑decoder 接收潜在向量和参考网格（第一帧），预测一个 变形场，将该场应用于参考网格即可得到完整的 4‑D 网格序列。
Skeleton regularization – 在训练期间，潜在向量还被强制重建底层骨骼，为真实的关节运动提供强先验，而在推理时不需要骨骼。
Latent diffusion – 在潜在空间中训练扩散模型以细化动画预测。以输入视频和第一帧网格为条件，扩散过程“填补”缺失细节并保证时间一致性。
End‑to‑end inference – 测试时，视频经过 encoder，扩散模型采样潜在向量，decoder 立即输出完整的 4‑D 网格序列。

结果与发现

指标	Mesh4D	先前技术（例如 MonoPerfCap、VoxelPose）
3‑D 形状 IoU（每帧）	0.78	0.65
时间变形误差	2.1 mm	3.7 mm
新视角合成 PSNR	28.4 dB	25.1 dB
推理时间（每 30 帧剪辑）	≈120 ms（GPU）	350 ms – 1 s

Mesh4D 在各种对象类别（人类、四足动物、关节工具）中始终提供 更高保真度的网格 和 更平滑的运动。
单遍管线 与基于迭代优化的方法相比，将延迟降低了超过 3 倍，使其在近实时应用中可行。
消融实验表明，去除骨骼正则化器会使 IoU 下降约 6 %，而禁用时空注意力会使变形误差增加约 30 %。

实际意义

AR/VR 内容创作 – 开发者可以仅用手机视频生成完整绑定的 3‑D 头像或交互式对象，降低昂贵的动作捕捉设备成本。
游戏资产流水线 – 艺术家只需录制短片，即可快速原型化角色动画或可变形道具，然后将其输入 Mesh4D 导出网格序列（如 OBJ + 形变权重）。
机器人与仿真 – 单摄像头捕获的真实物体动态可转化为可用于仿真或数字孪生的物理网格。
直播与远程呈现 – 低延迟实现对演讲者身体或主持人手势的实时重建，丰富虚拟会议体验。
电子商务 – 产品视频可转换为可操作的 3‑D 模型，顾客可任意旋转观看，提高线上购物的真实感。

限制与未来工作

Training data dependency – 该模型依赖高质量的多视角真实网格进行预训练；在具有未见拓扑结构的对象上性能可能下降。
Handling extreme occlusions – 虽然 latent diffusion 有帮助，但严重遮挡的肢体或快速自交仍会产生伪影。
Resolution constraints – 当前的 mesh decoder 输出约 5 k 顶点；要扩展到超高细节网格需要内存高效的 decoder 设计。
Generalization to non‑rigid fluids – 骨骼先验非常适合关节体，但对高度可变形的物质（如 cloth、liquids）效果较差。未来工作可以探索用于 soft‑body dynamics 的学习先验或集成可微分物理模拟器。

作者

Zeren Jiang
Chuanxia Zheng
Iro Laina
Diane Larlus
Andrea Vedaldi

论文信息

arXiv ID: 2601.05251v1
类别: cs.CV
出版日期: 2026年1月8日
PDF: 下载 PDF

[论文] Mesh4D：单目视频中的4D网格重建与跟踪

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Deepfake 检测器是 DUMB：一个用于评估在可转移性约束下 adversarial training 鲁棒性的基准

[Paper] 自适应条件对比无关可变形图像配准与不确定性估计

[Paper] VideoAR：自回归视频生成通过下一帧与尺度预测

[Paper] WaveRNet: 小波引导的频率学习用于多源域通用视网膜血管分割