[Paper] SemanticGen: 语义空间中的视频生成

发布: 1个月前 (2025年12月24日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.20619v1

概述

SemanticGen 提出了一种全新的视频生成方式，首先在紧凑的 semantic space 中工作，而不是直接操作低层像素或 VAE 潜在令牌。通过先规划高层场景布局再填充细节，模型收敛更快，并且能够更高效地扩展到更长的视频片段，提供最先进的视觉质量。

两阶段扩散管道
1. 第一个扩散模型生成 语义视频特征，捕捉全局运动和场景构成。
2. 第二个扩散模型将这些特征转换为 VAE 潜在表示，最终解码为像素。
语义优先生成 减少了原始视频流固有的冗余，从而实现 更快的训练收敛 和 更低的计算成本，尤其在处理长序列时。
实证优势：大量基准测试表明 SemanticGen 在视频质量指标（如 FVD、IS）上优于仅使用 VAE 潜在的生成器和其他强基线。
可扩展至长视频：该方法在生成显著长于以往方法高效处理的剪辑时，仍能保持质量。

语义特征提取
- 作者训练一个轻量级编码器，将原始视频帧映射到高层语义表示（例如，物体布局、运动线索）。
- 该表示远小于完整的 VAE 潜在空间，充当视频的“分镜脚本”。
阶段‑1 扩散（语义生成）
- 一个扩散模型（类似于去噪扩散概率模型）学习从随机噪声中采样合理的语义序列，受视频动态的学习先验引导。
- 由于空间紧凑，扩散过程只需更少的步骤即可得到连贯的全局布局。
阶段‑2 扩散（细节生成）
- 在生成的语义序列的条件下，第二个扩散模型预测相应的 VAE 潜在向量。
- 该模型专注于高频细节（纹理、细微运动），同时遵循阶段‑1 提供的全局计划。
解码
- VAE 解码器将潜在向量转换为像素帧，生成最终视频。

两阶段设计类似于人类在填充细节前先绘制场景分镜，避免了在成千上万的低层令牌上进行大规模双向注意力的需求。

指标	SemanticGen	先前最先进 (VAE‑latent)	差距
FVD（越低越好）	45.2	62.7	-17.5
IS（越高越好）	9.8	8.3	+1.5
训练步数至收敛	0.6× of baseline	1.0×	–40%
推理时间（10秒视频，GPU）	1.8 s	3.4 s	-47%

关键要点

论文中的定性示例展示了更平滑的运动过渡以及在更长时段内对物体身份的更好保持。

作者提出的 未来方向 包括：

SemanticGen 表明，在“它在做什么”之后再考虑“它看起来如何”，可以显著提升视频合成效果。对于希望将生成式视频嵌入产品的开发者而言，本文提供了一条实现更快、更廉价且更高质量生成的实用路线图。