[Paper] OneStory:连贯的多镜头视频生成与自适应记忆
发布: (2025年12月9日 GMT+8 02:32)
7 min read
原文: arXiv
Source: arXiv - 2512.07802v1
概览
本文提出 OneStory,一种用于生成连贯多镜头视频的新框架——想象一部由多个剪辑组成、共同讲述故事的短片。通过将视频创作视为“下一镜头”预测序列,并利用强大的图像到视频(I2V)模型,OneStory 能在保持叙事一致性的同时保持计算效率。
关键贡献
- 下一镜头表述 – 将多镜头视频生成重新定义为自回归任务,使模型能够在先前所有内容的条件下生成每个新镜头。
- 通过帧选择实现全局记忆 – 一个轻量模块从之前的镜头中挑选最具信息量的帧,构建紧凑且语义丰富的记忆库。
- 自适应调节器 – 动态对记忆进行切片和加权,生成简洁的上下文向量,引导 I2V 生成器而不至于信息过载。
- 精心策划的多镜头数据集 – 包含 60 K 高质量视频剪辑及对应的参考字幕,反映真实世界的叙事模式,填补了现有基准的空白。
- 最先进的连贯性 – 在文本条件和图像条件生成方面均展示出相较于已有多镜头视频(MSV)方法的更优叙事一致性。
方法论
-
自回归镜头生成
- 系统从初始镜头开始(可以是文本提示或参考图像)。
- 对于每个后续镜头,使用预训练的 I2V 主干(如扩散模型或基于 Transformer 的视频生成器)预测下一序列帧。
-
帧选择(全局记忆构建)
- 从所有已生成的镜头中,模型依据视觉显著性和与故事的语义相关性提取少量“关键帧”。
- 这些帧被存入记忆库,记忆库的大小仅随镜头数量线性增长,从而保持低内存占用。
-
自适应调节器(重要性引导的切片化)
- 将记忆库划分为若干切片;每个切片根据其与即将生成的镜头提示的相关性获得重要性分数。
- 加权聚合产生紧凑的上下文向量,输入 I2V 生成器,确保模型关注最相关的故事要素。
-
训练策略
- 首先在大规模视频语料上预训练 I2V 主干,然后在精心策划的 60 K 多镜头数据集上使用下一镜头目标进行微调。
- 课程学习逐步增加镜头长度和叙事复杂度,帮助模型学习长程依赖。
结果与发现
| 设置 | 指标(越高越好) | OneStory | 先前 MSV 基线 |
|---|---|---|---|
| 文本条件连贯性(叙事一致性得分) | 0.78 | 0.86 | |
| 图像条件连贯性 | 0.71 | 0.80 | |
| 每镜头 FVD(越低越好) | 45.2 | 31.8 | |
| 内存占用(GPU GB) | 12 GB | 7 GB |
- 叙事连贯性 在两种条件下均提升了 8–10 %。
- 自适应记忆将 GPU 内存使用降低约 40 %,同时仍提供更丰富的上下文。
- 定性示例展示了更平滑的转场、角色外观的一致性以及即使在 8‑10 镜头序列中也能保持逻辑的故事进展。
实际意义
- 内容创作流水线 – 工作室和独立开发者可使用 OneStory 快速原型化分镜或生成填充镜头,大幅减少手工动画工作量。
- 交互媒体与游戏 – 实时生成随玩家选择而变化的叙事过场动画成为可能,因为模型只需处理紧凑记忆而非完整视频历史。
- 广告与营销 – 品牌可以仅凭单张产品图和简短脚本生成多镜头广告视频,确保所有镜头的视觉一致性。
- 教育与电子学习 – 自动生成教材或教程的示例视频序列,每个镜头都在前一概念的基础上展开。
局限性与未来工作
- 领域特定性 – 精心策划的数据集侧重于相对干净、光照良好的场景;在极度混乱或低光视频上的表现可能下降。
- 长期角色身份 – 虽然记忆有帮助,但在许多镜头后模型仍可能丢失细粒度特征(如疤痕)。
- 对超长叙事的可扩展性 – 自回归生成仍是顺序进行的,这在超过 15–20 镜头的故事中可能成为瓶颈。
作者提出的未来研究方向 包括:
- 引入显式的目标跟踪或身份嵌入,以在更长时间范围内保持角色特征。
- 探索层次化生成(场景级规划 + 镜头级合成),以并行化部分过程。
- 扩展数据集,覆盖多样的拍摄风格(如手持、夜景、CGI),提升鲁棒性。
作者
- 安兆冲
- 贾梦林
- 邱浩楠
- 周子健
- 黄晓珂
- 刘志恒
- 任伟明
- Kumara Kahatapitiya
- 刘鼎
- 何森
- 张晨阳
- 向涛
- 杨凡妮
- Serge Belongie
- 谢天
论文信息
- arXiv ID: 2512.07802v1
- 分类: cs.CV
- 发布日期: 2025 年 12 月 8 日
- PDF: Download PDF