[Paper] TV2TV:统一框架用于交错语言和视频生成
发布: (2025年12月5日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.05103v1
概览
本文介绍了 TV2TV,一种全新的 “全能” 视频‑文本模型,将视频生成视为语言与像素之间的来回对话。通过让语言模型先 “用文字思考”,再让视觉模型 “用像素行动”,TV2TV 能生成更高质量、更易控制的视频,并且可以在生成过程的任意时刻通过文本提示进行引导。
关键贡献
- 交错生成框架 – 单一模型在下一个 token(文本)预测和下一个帧(视频流匹配)预测之间交替进行。
- Mixture‑of‑Transformers (MoT) 架构 – 分别用于语言建模和视频建模的塔共享同一潜在空间,并联合训练。
- 动态切换策略 – 推理时模型自主决定何时生成文本、何时生成视频,实现即时推理。
- 细粒度文本控制 – 用户可以在生成过程中注入或编辑文本指令,以重新塑造视频轨迹。
- 大规模混合数据训练 – 将合成游戏画面与自动生成的动作字幕以及真实体育视频配对的 VLM‑衍生描述相结合。
- 实证提升 – 在游戏和自然视频基准上,相较于强基线在视觉保真度(FVD/IS)和提示对齐度(CLIP‑Score)上均有显著提升。
方法论
- 数据准备 – 作者构建了两个语料库:
- (a) 一个视频游戏数据集, 每段帧序列均配有人类撰写的动作字幕;
- (b) 一个大型体育剪辑集合, 使用视觉‑语言模型自动标注自然语言描述。
- 模型设计 –
- 语言塔:标准的仅解码器 Transformer,预测给定前置 token 与潜在视频上下文的下一个 token。
- 视频塔:流匹配扩散模型,条件于过去帧和当前文本嵌入,预测下一个视频帧。
- Mixture‑of‑Transformers:门控网络学习在每一步将隐藏状态路由至语言塔或视频塔,实现 “思考” 与 “行动” 的切换。
- 联合训练 – 两塔共享同一嵌入空间,并通过组合损失共同优化:文本使用交叉熵,视频使用流匹配损失。
- 推理算法 – 从初始提示出发,模型迭代采样 token 或帧。一个学习得到的策略(隐藏状态上的轻量分类器)在语言塔发出需要新高层概念的信号时触发切换。
- 控制接口 – 开发者可以在任意生成步骤插入自定义 token,立即影响后续帧的预测。
结果与发现
| 数据集 | 指标(↑ 越好) | TV2TV | 先前最佳 |
|---|---|---|---|
| 游戏‑玩法(合成) | FVD ↓ | 45 | 78 |
| 游戏‑玩法 | CLIP‑Score ↑ | 0.71 | 0.58 |
| 体育(真实) | IS ↑ | 12.4 | 9.1 |
| 体育 | 提示对齐(BLEU‑4) ↑ | 0.34 | 0.22 |
- 视觉质量:TV2TV 在合成数据上将 Fréchet Video Distance (FVD) 降低约 40 %,并在真实视频上提升 Inception Score,表明帧更清晰、连贯。
- 提示对齐:交错的语言步骤带来更高的 CLIP‑Score 与 BLEU‑4,说明生成视频更忠实于文本描述。
- 控制实验:在生成中途插入单句纠正(“汽车应向左转”)能够可靠地改变视频轨迹且不降低视觉质量。
- 消融研究:去除动态切换策略(强制固定的文本‑后‑视频顺序)会导致 FVD 与对齐分数均下降,验证了即时推理的重要性。
实际意义
- 内容创作流水线 – 游戏工作室或广告团队可以通过编写脚本让 TV2TV 自动生成原型剪辑,大幅缩短迭代时间。
- 交互式媒体 – VR/AR 开发者可让用户通过文字或语音即时重塑正在播放的视频流,实现 “文本驱动的游戏”。
- 数据增强 – 可大规模生成带对齐字幕的合成视频,用于下游视觉‑语言模型的训练,降低人工标注成本。
- 细粒度编辑 – 通过插入文本补丁(如 “在此处加入暴雨”)即可编辑已有视频资产,为后期制作提供新工作流。
- 开放式 AI 代理 – 该架构展示了在视觉执行前先用语言规划动作的可行路径,可用于机器人仿真或自动驾驶场景生成。
局限性与未来工作
- 对长视频的可扩展性 – 目前模型仅支持约 8 秒的片段;要延长时长可能需要层次化规划或内存高效的 Transformer。
- 对字幕质量的依赖 – 对自然视频而言,VLM 生成的描述可能噪声较大,进而影响视频塔的输出。
- 计算成本 – 联合训练两个大型 Transformer 与流匹配扩散模型资源消耗巨大,限制了小实验室的可及性。
- 用户控制粒度 – 虽然文本干预有效,但尚未支持更精确的空间控制(如指定对象位置)。
未来研究方向包括层次化交错(场景级语言 → 镜头级视频)、加入音频的多模态条件、以及轻量化蒸馏技术,以将 TV2TV 推向边缘设备。
作者
- 韩晓创
- Youssef Emad
- Melissa Hall
- John Nguyen
- Karthik Padthe
- Liam Robbins
- Amir Bar
- 陈德龙
- Michal Drozdzal
- Maha Elbayad
- 于世浩
- 李尚文
- Sreya Dutta Roy
- Jakob Verbeek
- 徐东 Wang
- Marjan Ghazvininejad
- Luke Zettlemoyer
- Emily Dinan
论文信息
- arXiv ID: 2512.05103v1
- 分类: cs.LG, cs.AI, cs.CV
- 出版时间: 2025 年 12 月 4 日
- PDF: Download PDF