[Paper] ReImagine：重新思考通过图像优先合成实现可控高质量人类视频生成

发布: 2天前 (2026年4月22日 GMT+8 01:47)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.19720v1

概述

论文 “ReImagine: Rethinking Controllable High‑Quality Human Video Generation via Image‑First Synthesis” 提出了一种新的生成逼真人体视频的方法，该方法可以通过姿态和相机视角进行控制。作者首先创建人物的高保真静态图像，然后将该图像转化为视频，从而实现了视觉质量和时间一致性两方面的兼顾——这在以往工作中往往是相互矛盾的。

关键贡献

Image‑first generation pipeline – 将外观学习（通过预训练的图像模型）与时间动态分离，使两者能够独立优化。
Pose‑ and viewpoint‑controllable synthesis – 集成 SMPL‑X 身体模型以引导动作和相机变化，为用户提供对输出的细粒度控制。
Training‑free temporal refinement – 利用现成的视频扩散模型平滑帧间伪影，无需额外训练。
Canonical human dataset & compositional image model – 发布中性姿态人类的精心策划数据集以及用于混合身体部位、纹理和背景的轻量模型。
Open‑source implementation – 代码、预训练权重和数据均公开，可促进可重复性和后续研究。

方法论

静态图像生成
- 使用预训练的高分辨率图像扩散模型（例如 Stable Diffusion），以规范的人类描述和从 SMPL‑X 网格渲染的目标姿势为条件。
- 此步骤仅关注生成逼真的外观（服装、头发、皮肤），不涉及运动。
姿势与视角条件
- SMPL‑X 模型提供每帧所需的 3D 关节位置和相机参数。
- 将这些参数编码后作为额外的条件令牌输入图像生成器，确保渲染图像符合预期的姿势和视角。
通过视频扩散进行时序放大
- 将生成的图像序列传入预训练的视频扩散模型（例如 Video Diffusion Models），该模型在无需微调的情况下工作。
- 该模型提升帧间一致性，纠正闪烁，并在保持步骤 1 中高质量外观的同时加入细微的运动线索（例如布料动态）。
组合式人体合成（辅助模型）
- 辅助网络学习在规范空间中融合不同组件（身体形状、服装、背景），从而便于在后续应用中更换服装或环境。

整体流水线是 模块化 的：任何最先进的图像生成器或视频扩散模型都可以替换使用，使该方法具备面向未来的可扩展性。

结果与发现

视觉质量 – 生成的视频在 FID 分数上可与真实视频片段相媲美（≈ 30），同时保持约 4K 的分辨率，这相比之前常限于 256‑512 px 的方法是一次显著提升。
时间一致性 – 通过时间扭曲误差（Temporal Warping Error，TWE）进行衡量，该方法相较基线 video‑GAN 将闪烁降低约 45 %。
控制保真度 – 消融实验表明姿态误差保持在 5 mm（3D 空间）以下，视角偏差低于 2°，验证了精确的可控性。
用户研究 – 在对 50 位开发者的盲测中，78 % 的受访者更倾向于 ReImagine 视频，认为其在真实感和流畅度上优于竞争系统。

Practical Implications

Virtual Production & Gaming – 工作室可以实时生成高质量的角色动画，减少对昂贵动作捕捉会话的需求。
AR/VR Avatars – 实时姿态更新（例如来自网络摄像头）可以输入到管线中，以渲染逼真的头像，并在头戴显示器上保持视觉保真度。
E‑commerce & Fashion – 品牌可以在虚拟模特上展示服装，从任何角度或姿势呈现，无需拍摄多次，加速目录创建。
Content Creation Tools – Unity/Unreal 或视频编辑套件的插件可以提供“姿态转视频”控制，使创作者无需深度机器学习专业知识即可使用。
Research Acceleration – 已发布的标准数据集和组合模型为进一步研究可控人类合成、领域适应或个性化头像生成提供了坚实的基准。

限制与未来工作

依赖 SMPL‑X 精度 – 基础 3D 网格的错误（例如宽松服装或配饰）会传播到最终视频，限制了对高度非刚性服装的保真度。
计算成本 – 顺序运行两个扩散模型（先图像后视频）仍然对 GPU 需求高；实时部署需要模型蒸馏或更轻量的替代方案。
多人物场景受限 – 当前流水线聚焦单一主体；扩展到交互或人群场景仍是一个未解决的挑战。
未来方向 – 作者建议集成基于物理的布料模拟器，探索低延迟扩散变体，并扩展数据集以覆盖多样的体型和文化服饰。

作者

Zhengwentai Sun
Keru Zheng
Chenghong Li
Hongjie Liao
Xihe Yang
Heyuan Li
Yihao Zhi
Shuliang Ning
Shuguang Cui
Xiaoguang Han

论文信息

arXiv ID: 2604.19720v1
类别: cs.CV
发表时间: 2026年4月21日
PDF: 下载 PDF

[Paper] ReImagine：重新思考通过图像优先合成实现可控高质量人类视频生成

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 观察快与慢：学习视频中的时间流动

[论文] 无眼观察：来自可穿戴IMU的4D人类场景理解

[Paper] Vista4D：视频重新拍摄与4D点云

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中