[Paper] ReImagine:重新思考通过图像优先合成实现可控高质量人类视频生成

发布: (2026年4月22日 GMT+8 01:47)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.19720v1

概述

论文 “ReImagine: Rethinking Controllable High‑Quality Human Video Generation via Image‑First Synthesis” 提出了一种新的生成逼真人体视频的方法,该方法可以通过姿态和相机视角进行控制。作者首先创建人物的高保真静态图像,然后将该图像转化为视频,从而实现了视觉质量和时间一致性两方面的兼顾——这在以往工作中往往是相互矛盾的。

关键贡献

  • Image‑first generation pipeline – 将外观学习(通过预训练的图像模型)与时间动态分离,使两者能够独立优化。
  • Pose‑ and viewpoint‑controllable synthesis – 集成 SMPL‑X 身体模型以引导动作和相机变化,为用户提供对输出的细粒度控制。
  • Training‑free temporal refinement – 利用现成的视频扩散模型平滑帧间伪影,无需额外训练。
  • Canonical human dataset & compositional image model – 发布中性姿态人类的精心策划数据集以及用于混合身体部位、纹理和背景的轻量模型。
  • Open‑source implementation – 代码、预训练权重和数据均公开,可促进可重复性和后续研究。

方法论

  1. 静态图像生成

    • 使用预训练的高分辨率图像扩散模型(例如 Stable Diffusion),以规范的人类描述和从 SMPL‑X 网格渲染的目标姿势为条件。
    • 此步骤仅关注生成逼真的外观(服装、头发、皮肤),不涉及运动。
  2. 姿势与视角条件

    • SMPL‑X 模型提供每帧所需的 3D 关节位置和相机参数。
    • 将这些参数编码后作为额外的条件令牌输入图像生成器,确保渲染图像符合预期的姿势和视角。
  3. 通过视频扩散进行时序放大

    • 将生成的图像序列传入预训练的视频扩散模型(例如 Video Diffusion Models),该模型在无需微调的情况下工作。
    • 该模型提升帧间一致性,纠正闪烁,并在保持步骤 1 中高质量外观的同时加入细微的运动线索(例如布料动态)。
  4. 组合式人体合成(辅助模型)

    • 辅助网络学习在规范空间中融合不同组件(身体形状、服装、背景),从而便于在后续应用中更换服装或环境。

整体流水线是 模块化 的:任何最先进的图像生成器或视频扩散模型都可以替换使用,使该方法具备面向未来的可扩展性。

结果与发现

  • 视觉质量 – 生成的视频在 FID 分数上可与真实视频片段相媲美(≈ 30),同时保持约 4K 的分辨率,这相比之前常限于 256‑512 px 的方法是一次显著提升。
  • 时间一致性 – 通过时间扭曲误差(Temporal Warping Error,TWE)进行衡量,该方法相较基线 video‑GAN 将闪烁降低约 45 %。
  • 控制保真度 – 消融实验表明姿态误差保持在 5 mm(3D 空间)以下,视角偏差低于 2°,验证了精确的可控性。
  • 用户研究 – 在对 50 位开发者的盲测中,78 % 的受访者更倾向于 ReImagine 视频,认为其在真实感和流畅度上优于竞争系统。

Practical Implications

  • Virtual Production & Gaming – 工作室可以实时生成高质量的角色动画,减少对昂贵动作捕捉会话的需求。
  • AR/VR Avatars – 实时姿态更新(例如来自网络摄像头)可以输入到管线中,以渲染逼真的头像,并在头戴显示器上保持视觉保真度。
  • E‑commerce & Fashion – 品牌可以在虚拟模特上展示服装,从任何角度或姿势呈现,无需拍摄多次,加速目录创建。
  • Content Creation Tools – Unity/Unreal 或视频编辑套件的插件可以提供“姿态转视频”控制,使创作者无需深度机器学习专业知识即可使用。
  • Research Acceleration – 已发布的标准数据集和组合模型为进一步研究可控人类合成、领域适应或个性化头像生成提供了坚实的基准。

限制与未来工作

  • 依赖 SMPL‑X 精度 – 基础 3D 网格的错误(例如宽松服装或配饰)会传播到最终视频,限制了对高度非刚性服装的保真度。
  • 计算成本 – 顺序运行两个扩散模型(先图像后视频)仍然对 GPU 需求高;实时部署需要模型蒸馏或更轻量的替代方案。
  • 多人物场景受限 – 当前流水线聚焦单一主体;扩展到交互或人群场景仍是一个未解决的挑战。
  • 未来方向 – 作者建议集成基于物理的布料模拟器,探索低延迟扩散变体,并扩展数据集以覆盖多样的体型和文化服饰。

作者

  • Zhengwentai Sun
  • Keru Zheng
  • Chenghong Li
  • Hongjie Liao
  • Xihe Yang
  • Heyuan Li
  • Yihao Zhi
  • Shuliang Ning
  • Shuguang Cui
  • Xiaoguang Han

论文信息

  • arXiv ID: 2604.19720v1
  • 类别: cs.CV
  • 发表时间: 2026年4月21日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »