Stable Video Diffusion:将潜在视频扩散模型扩展到大规模数据集
发布: (2025年12月26日 GMT+8 00:40)
2 min read
原文: Dev.to
Source: Dev.to
Overview
Stable Video Diffusion 是一种新工具,可根据简短的文字提示或单张图像生成短视频片段。其生成的结果出奇地流畅且逼真。
Training Pipeline
该模型在一个大型、精心挑选的视频数据集上进行训练,以学习真实的运动。训练分为三个阶段:
- Image pre‑training – 从静态图像中学习视觉概念。
- Video pre‑training – 从大量视频中学习时间动态。
- Fine‑tuning – 在高质量素材上微调模型,以提升保真度。
这种多阶段方法使模型对外观和运动都有强大的把握。
Capabilities
- Text‑to‑video 生成,具备连贯的运动和摄像机移动。
- Image‑to‑video 扩展,将单张图片转化为动态场景。
- 能够推断对象的多个视角,提供类似 3‑D 的多视角表示。
- 生成高质量、平滑的视频片段,可在下游应用中重复使用。
Availability
代码和模型检查点已公开发布,创作者可以进行实验、微调,并在此系统之上构建新工具。
Further Reading
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets – 在 Paperium.net 上的综合评述。