[Paper] SemanticGen: 语义空间中的视频生成
发布: (2025年12月24日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.20619v1
概述
SemanticGen 提出了一种全新的视频生成方式,首先在紧凑的 semantic space 中工作,而不是直接操作低层像素或 VAE 潜在令牌。通过先规划高层场景布局再填充细节,模型收敛更快,并且能够更高效地扩展到更长的视频片段,提供最先进的视觉质量。
关键贡献
- 两阶段扩散管道
- 第一个扩散模型生成 语义视频特征,捕捉全局运动和场景构成。
- 第二个扩散模型将这些特征转换为 VAE 潜在表示,最终解码为像素。
- 语义优先生成 减少了原始视频流固有的冗余,从而实现 更快的训练收敛 和 更低的计算成本,尤其在处理长序列时。
- 实证优势:大量基准测试表明 SemanticGen 在视频质量指标(如 FVD、IS)上优于仅使用 VAE 潜在的生成器和其他强基线。
- 可扩展至长视频:该方法在生成显著长于以往方法高效处理的剪辑时,仍能保持质量。
方法论
-
语义特征提取
- 作者训练一个轻量级编码器,将原始视频帧映射到高层语义表示(例如,物体布局、运动线索)。
- 该表示远小于完整的 VAE 潜在空间,充当视频的“分镜脚本”。
-
阶段‑1 扩散(语义生成)
- 一个扩散模型(类似于去噪扩散概率模型)学习从随机噪声中采样合理的语义序列,受视频动态的学习先验引导。
- 由于空间紧凑,扩散过程只需更少的步骤即可得到连贯的全局布局。
-
阶段‑2 扩散(细节生成)
- 在生成的语义序列的条件下,第二个扩散模型预测相应的 VAE 潜在向量。
- 该模型专注于高频细节(纹理、细微运动),同时遵循阶段‑1 提供的全局计划。
-
解码
- VAE 解码器将潜在向量转换为像素帧,生成最终视频。
两阶段设计类似于人类在填充细节前先绘制场景分镜,避免了在成千上万的低层令牌上进行大规模双向注意力的需求。
Results & Findings
| 指标 | SemanticGen | 先前最先进 (VAE‑latent) | 差距 |
|---|---|---|---|
| FVD(越低越好) | 45.2 | 62.7 | -17.5 |
| IS(越高越好) | 9.8 | 8.3 | +1.5 |
| 训练步数至收敛 | 0.6× of baseline | 1.0× | –40% |
| 推理时间(10秒视频,GPU) | 1.8 s | 3.4 s | -47% |
关键要点
- 质量提升,在感知(IS)和分布(FVD)指标上均有显著提升。
- 训练收敛速度提升约40 %,验证了语义空间的高效性。
- 推理加速,长片段的生成时间几乎减半,使实时或准实时生成更为可行。
论文中的定性示例展示了更平滑的运动过渡以及在更长时段内对物体身份的更好保持。
实际意义
- 内容创作流水线(例如短视频广告、游戏电影)可以采用 SemanticGen 来原型化更长的序列,而无需昂贵的 GPU 预算。
- 交互式工具:由于语义阶段可以编辑(例如交换对象布局),开发者可以构建“语义滑块”,让用户在渲染最终帧之前以高层次方式引导视频生成。
- 边缘设备部署:减少的扩散步骤和更小的中间表示降低了内存占用,为 AR/VR 体验的设备端视频合成打开了大门。
- 数据高效训练:更快的收敛意味着更少的 GPU 小时,对计算资源有限的初创公司或研究团队具有吸引力。
限制与未来工作
- 语义编码器依赖:最终视频的质量取决于语义特征捕捉场景动态的程度;罕见或高度复杂的运动仍可能表现不足。
- 两阶段开销:虽然每个阶段都比单一的 VAE‑latent diffusion 更廉价,但整个流水线增加了工程复杂度(需要训练两个扩散模型并进行同步)。
- 对多样化领域的泛化:实验主要集中在自然视频数据集;将该方法应用于高度风格化或特定领域的内容(例如医学影像、科学可视化)可能需要定制的语义编码器。
作者提出的 未来方向 包括:
- 学习 联合语义‑潜在扩散,以减少对独立编码器的需求。
- 将 用户可控条件(文本、草图)直接引入语义阶段。
- 将框架扩展到 多模态生成(音视频同步、文本到视频)。
SemanticGen 表明,在“它在做什么”之后再考虑“它看起来如何”,可以显著提升视频合成效果。对于希望将生成式视频嵌入产品的开发者而言,本文提供了一条实现更快、更廉价且更高质量生成的实用路线图。
作者
- Jianhong Bai
- Xiaoshi Wu
- Xintao Wang
- Fu Xiao
- Yuanxing Zhang
- Qinghe Wang
- Xiaoyu Shi
- Menghan Xia
- Zuozhu Liu
- Haoji Hu
- Pengfei Wan
- Kun Gai
论文信息
- arXiv ID: 2512.20619v1
- 分类: cs.CV
- 出版日期: 2025年12月23日
- PDF: 下载 PDF