[Paper] 单张图像生成具备3D姿态和视角控制的人体视频

发布: (2026年2月25日 GMT+8 02:42)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.21188v1

概述

本文介绍了 Human Video Generation in 4D (HVG),一种基于扩散的模型,能够将单张人物照片转换为可完全控制的多视角视频。通过向系统提供 3‑D 姿态和期望的相机角度,开发者可以合成逼真的人体动作——包括在不同视角下保持一致的衣物褶皱——而无需任何视频素材作为训练数据。

关键贡献

  • Articulated Pose Modulation – 一种双维骨骼映射,编码 3‑D 关节关系,使模型能够推理自遮挡并在不同视角下保持解剖正确性。
  • View & Temporal Alignment – 一种同步方案,将生成的帧同时绑定到参考图像和姿态序列,确保帧间稳定性和多视角一致性。
  • Progressive Spatio‑Temporal Sampling – 从粗到细的扩散调度,遵循时间对齐,生成平滑、长时段的动画,避免闪烁和抖动。
  • Latent Video Diffusion Architecture – 在紧凑的潜在空间中运行,使高分辨率人类视频的生成过程在计算上可行。
  • Extensive Benchmarks – 定量和定性比较表明 HVG 在真实感、姿态保真度和视角一致性方面优于以往的图像到视频以及 3‑D 人体合成方法。

方法论

  1. 输入表示

    • 单张 RGB 图像,展示一个人。
    • 3‑D 姿态骨架(关节点坐标),由单独的姿态估计器提供。
    • 期望的相机视角(例如,正面、侧面、俯视)。
  2. 双维骨骼图

    • 构建一个 2‑D 像素级图,记录每根骨骼的方向和长度;同时构建一个平行的 3‑D 图,存储实际的关节位置。
    • 这种双视图让扩散模型能够理解从任意角度下四肢应呈现的方式以及它们之间的遮挡关系。
  3. 潜在扩散过程

    • 使用预训练的 VAE 将图像和骨骼图编码到低维潜在空间。
    • 一个 UNet‑style 去噪网络在姿态序列和视角参数的条件下,迭代地细化噪声潜在视频。
  4. 对齐模块

    • 视角对齐:将 3‑D 骨架投影到目标视角,并对齐潜在帧,以保持不同角度下同一人物的轮廓一致。
    • 时间对齐:强制相邻潜在帧遵循相同的运动轨迹,减少时间漂移。
  5. 渐进采样

    • 首先使用短时、低分辨率的剪辑捕获粗略运动,然后在空间和时间上逐步上采样,同时保持对齐约束。

结果与发现

  • 视觉质量:HVG 生成的视频细节锐利,布料动态逼真,视角之间光照一致——远超 Imagen‑Video 和 Make‑It‑3D 等基线。
  • 姿态保真度:通过 MPJPE(每关节平均位置误差)衡量,HVG 将误差降低约 30 %,表明对提供的 3‑D 姿态的遵循更为紧密。
  • 多视角一致性:新提出的视角一致性指标提升了 45 %,证实相同动作在不同摄像机角度下保持连贯。
  • 时间平滑性:时间扭曲误差显著下降,体现了渐进式时空采样的有效性。
  • 速度:在潜在空间中运行,使用 RTX 3090 生成 2 秒片段的时间约为 2–3 秒,使交互式原型制作成为可能。

Practical ImpImplications

  • Game Development & Virtual Production: 艺术家可以快速从概念艺术原型化角色动画,在不手动为每帧制作动画的情况下即时调整姿势和相机。
  • AR/VR Avatars: 实时生成个性化头像,能够响应用户提供的姿势和视角,实现更沉浸的远程呈现。
  • Fashion & E‑Commerce: 品牌可以仅使用产品照片,在任意角度和动态中展示模特穿着的服装,降低昂贵视频拍摄的需求。
  • Content Creation Tools: 集成到视频编辑器或 AI 辅助动画套件中,可让创作者自动生成填充镜头或背景人群。
  • Research & Simulation: 提供一种数据高效的方式,合成大量标注的人体运动,用于训练其他视觉模型(例如动作识别、姿态估计)。

限制与未来工作

  • 姿态估计依赖:输出质量取决于提供的 3‑D 姿态的准确性;噪声或模糊的姿态可能导致伪影。
  • 交互建模受限:当前设计仅处理单一孤立的人体;扩展到多人场景或物体交互仍是一个未解决的挑战。
  • 分辨率扩展:虽然潜在扩散效率高,但生成超高分辨率(4K 以上)视频仍需要大量 GPU 显存。
  • 对特殊服装的泛化:非常宽松或高度反光的服装有时会产生不真实的皱纹;未来工作可以将基于物理的布料模拟器作为额外的条件信号加入。

总体而言,HVG 推动了单图像人体视频合成的前沿,为开发者提供了一个强大的新工具,能够以极少的输入创建可控的多视角动画。

作者

  • Tiantian Wang
  • Chun-Han Yao
  • Tao Hu
  • Mallikarjun Byrasandra Ramalinga Reddy
  • Ming-Hsuan Yang
  • Varun Jampani

论文信息

  • arXiv ID: 2602.21188v1
  • 分类: cs.CV
  • 发布日期: 2026年2月24日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »