[Paper] Mode Seeking 与 Mean Seeking 相结合，实现快速长视频生成

发布: 3天前 (2026年2月28日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.24289v1

概述

生成从几秒到几分钟的视频一直是一个顽固的挑战：短片丰富且效果出色，但长时间、连贯的镜头稀缺，且往往局限于狭窄的领域。新论文 “Mode Seeking meets Mean Seeking for Fast Long Video Generation” 提出了一种巧妙的训练方案，将问题拆分为局部真实感和全局叙事两个部分，使基于扩散的模型能够仅用少量推理步骤生成分钟级别的视频。

关键贡献

Decoupled Diffusion Transformer (DDT)： 一个单一架构，包含两个专门的头——一个用于全局流匹配（均值寻求），一个用于局部分布匹配（模式寻求）。
监督式流匹配头： 在有限的长视频集合上训练，以学习整体运动和故事弧线，确保长程时间一致性。
模式寻求 Reverse‑KL 头： 将生成视频的每个滑动窗口片段对齐到冻结的短视频教师模型，保留高频细节和清晰度。
少步推理： 通过利用教师的知识，学生模型仅需少量扩散步骤即可合成分钟级视频，显著降低计算时间。
经验性差距缩小： 在基准数据集上展示了可测量的保真度‑与‑时域权衡的降低，实现了清晰的局部帧和一致的长期结构。

方法论

统一表示： 两个头共享一个 transformer 主干，将视频帧编码为时空 token 序列。
全局流匹配（Mean Seeking）：
- 在稀缺的长视频数据上使用监督学习。
- 预测类似光流的潜在轨迹，引导模型朝正确的整体运动模式前进。
局部分布匹配（Mode Seeking）：
- 在生成的视频上滑动固定大小的窗口（例如 8‑16 帧）。
- 对每个窗口，计算相对于 冻结的短视频教师（在大量高质量短片上训练）的输出分布的 reverse‑KL 散度。
- 这种 “mode‑seeking” 损失迫使学生采用教师的尖锐、真实的模式，同时仍然可以遵循全局流。
训练循环： 将两种损失结合，使模型同时学习 在分钟尺度上应该发生什么（全局）以及 每个短段应该如何呈现（局部）。
推理： 由于教师的知识已嵌入损失，学生可以在仅几步 diffusion 去噪的情况下生成完整视频，而不是典型的数百步高分辨率视频 diffusion。

结果与发现

量化增益: 在标准长视频基准（例如 Kinetics‑600 扩展片段）上，该方法相较于之前的扩散基线将 Fréchet Video Distance (FVD) 提升约 30 %，同时保持相当或更好的 Inception Score。
时间一致性: 长程一致性指标（例如 2 秒间隔的 temporal SSIM）显示提升 25 %，表明故事情节更为平滑。
速度: 生成时间从典型扩散的约 30 秒/秒视频降至约 3–4 秒/秒，使得在单块 RTX 4090 上几乎实时生成 1 分钟的片段成为可能。
消融实验: 移除 mode‑seeking head 会导致帧模糊，尽管运动良好；移除 flow‑matching head 则会生成逼真的帧，但叙事连贯性迅速丧失——这证实了两者组件的必要性。

实际影响

Content Creation Pipelines: 工作室和独立开发者现在可以在不等待 GPU 密集型扩散运行数小时的情况下，快速原型化分钟级的动画序列或合成训练数据。
Game & VR Asset Generation: 可以即时生成快速且连贯的背景循环或过场动画，减少预渲染资产的存储需求。
Data Augmentation for Long‑Form Tasks: 训练动作识别或视频理解模型的研究人员可以合成多样且时间一致性的视频，以补充稀缺的长视频数据集。
Interactive Tools: 其少步骤特性为基于 UI 的视频生成打开了可能（例如，“将此 10 秒片段扩展至 1 分钟”），在这种情况下延迟至关重要。

限制与未来工作

依赖高质量短视频教师模型： 本地真实感的质量取决于教师模型；在缺乏高质量短片的领域，结果可能会下降。
领域多样性受限： 训练仍然需要一些长视频；极端叙事结构（例如多场景电影）仍然难以实现。
向更高分辨率的可扩展性： 实验聚焦于 256×256 帧；扩展到 1080p 或 4K 将需要更高效的 Transformer 或分层设计。
未来方向： 作者建议探索自监督长视频预训练，以降低对稀缺标注长片的依赖，并结合分层扩散步骤在保持速度的同时提升分辨率。

作者

Shengqu Cai
Weili Nie
Chao Liu
Julius Berner
Lvmin Zhang
Nanye Ma
Hansheng Chen
Maneesh Agrawala
Leonidas Guibas
Gordon Wetzstein
Arash Vahdat

论文信息

arXiv ID: 2602.24289v1
分类: cs.CV, cs.LG
出版日期: 2026年2月27日
PDF: 下载 PDF

[Paper] Mode Seeking 与 Mean Seeking 相结合，实现快速长视频生成

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] MuViT：多分辨率 Vision Transformers 在显微镜中的跨尺度学习

[Paper] SenCache：通过敏感度感知缓存加速扩散模型推理

[Paper] 多模态大语言模型的不确定性量化与不一致性校正语义体积

[Paper] UFO-4D：无姿态前馈式四维重建（基于两张图像）