[Paper] MultiShotMaster：可控的多镜头视频生成框架

发布: 2个月前 (2025年12月3日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.03041v1

概览

本文提出了 MultiShotMaster，一个将最先进的单镜头视频生成器扩展为能够生成多镜头视频的全新框架——想象一下由多个摄像机“镜头”组成的短片或产品演示。通过加入两种新颖的旋转位置嵌入（RoPE）技巧，系统让用户能够指定每个镜头的顺序、时长和视觉参考，同时保持整体叙事的连贯性。

基础模型 – 作者以预训练的单镜头扩散视频生成器为起点（例如 Imagen Video 或 Make‑It‑Video）。
RoPE 扩展
- 叙事 RoPE：对每个镜头的位置信息进行学习得到的相位偏移旋转。这样在镜头之间形成“时间间隙”，模型将其视为独立段落，同时共享全局时间轴。
- 时空感知 RoPE：额外的 token 编码空间掩码或参考图像。其嵌入在用户指定的帧和空间位置上与扩散过程融合。
数据标注流水线 – 结合镜头边界检测、字幕对齐和视觉 grounding 提取，自动从原始视频构建多镜头训练集。
训练与推理 – 在新数据集上微调模型，使其同时遵循叙事 RoPE（镜头顺序）和 grounding RoPE（何时何地出现对象）。推理时，用户提供：
- 描述故事的高级脚本（文本提示）。
- 每个镜头的可选参考图像或掩码。
- 期望的镜头时长和整体视频时长。

叙事连贯性 – 人类评估者给 MultiShotMaster 的多镜头视频在故事流畅性上比简单拼接单镜头输出高出 23 %。
Grounding 准确度 – 在提供参考图像的情况下，模型将正确的对象放置在正确的镜头中，平均交并比（mIoU）比基线提升 0.18。
灵活性 – 在镜头数量（2–5）和单镜头时长（0.5–2 秒）变化的实验中，视觉质量几乎不受影响（FID 下降 < 0.05），验证了系统对任意镜头结构的适应能力。
用户控制 – 小规模用户研究（n = 30 位开发者）显示，87 % 的参与者在三次迭代内实现了预期的视觉效果，而现有文本到视频工具仅为 54 %。

MultiShotMaster 为真正可控的多镜头视频合成打开了大门，将过去劳动密集的编辑工作转变为可编程、AI 驱动的工作流。随着社区逐步克服上述局限，预计会出现越来越复杂的 AI 生成叙事，兼具创意与精确的开发者控制。