[Paper] TV2TV:统一框架用于交错语言和视频生成

发布: (2025年12月5日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.05103v1

概览

本文介绍了 TV2TV,一种全新的 “全能” 视频‑文本模型,将视频生成视为语言与像素之间的来回对话。通过让语言模型先 “用文字思考”,再让视觉模型 “用像素行动”,TV2TV 能生成更高质量、更易控制的视频,并且可以在生成过程的任意时刻通过文本提示进行引导。

关键贡献

  • 交错生成框架 – 单一模型在下一个 token(文本)预测和下一个帧(视频流匹配)预测之间交替进行。
  • Mixture‑of‑Transformers (MoT) 架构 – 分别用于语言建模和视频建模的塔共享同一潜在空间,并联合训练。
  • 动态切换策略 – 推理时模型自主决定何时生成文本、何时生成视频,实现即时推理。
  • 细粒度文本控制 – 用户可以在生成过程中注入或编辑文本指令,以重新塑造视频轨迹。
  • 大规模混合数据训练 – 将合成游戏画面与自动生成的动作字幕以及真实体育视频配对的 VLM‑衍生描述相结合。
  • 实证提升 – 在游戏和自然视频基准上,相较于强基线在视觉保真度(FVD/IS)和提示对齐度(CLIP‑Score)上均有显著提升。

方法论

  1. 数据准备 – 作者构建了两个语料库:
    • (a) 一个视频游戏数据集, 每段帧序列均配有人类撰写的动作字幕;
    • (b) 一个大型体育剪辑集合, 使用视觉‑语言模型自动标注自然语言描述。
  2. 模型设计
    • 语言塔:标准的仅解码器 Transformer,预测给定前置 token 与潜在视频上下文的下一个 token。
    • 视频塔:流匹配扩散模型,条件于过去帧和当前文本嵌入,预测下一个视频帧。
    • Mixture‑of‑Transformers:门控网络学习在每一步将隐藏状态路由至语言塔或视频塔,实现 “思考” 与 “行动” 的切换。
  3. 联合训练 – 两塔共享同一嵌入空间,并通过组合损失共同优化:文本使用交叉熵,视频使用流匹配损失。
  4. 推理算法 – 从初始提示出发,模型迭代采样 token 或帧。一个学习得到的策略(隐藏状态上的轻量分类器)在语言塔发出需要新高层概念的信号时触发切换。
  5. 控制接口 – 开发者可以在任意生成步骤插入自定义 token,立即影响后续帧的预测。

结果与发现

数据集指标(↑ 越好)TV2TV先前最佳
游戏‑玩法(合成)FVD ↓4578
游戏‑玩法CLIP‑Score ↑0.710.58
体育(真实)IS ↑12.49.1
体育提示对齐(BLEU‑4) ↑0.340.22
  • 视觉质量:TV2TV 在合成数据上将 Fréchet Video Distance (FVD) 降低约 40 %,并在真实视频上提升 Inception Score,表明帧更清晰、连贯。
  • 提示对齐:交错的语言步骤带来更高的 CLIP‑Score 与 BLEU‑4,说明生成视频更忠实于文本描述。
  • 控制实验:在生成中途插入单句纠正(“汽车应向左转”)能够可靠地改变视频轨迹且不降低视觉质量。
  • 消融研究:去除动态切换策略(强制固定的文本‑后‑视频顺序)会导致 FVD 与对齐分数均下降,验证了即时推理的重要性。

实际意义

  • 内容创作流水线 – 游戏工作室或广告团队可以通过编写脚本让 TV2TV 自动生成原型剪辑,大幅缩短迭代时间。
  • 交互式媒体 – VR/AR 开发者可让用户通过文字或语音即时重塑正在播放的视频流,实现 “文本驱动的游戏”。
  • 数据增强 – 可大规模生成带对齐字幕的合成视频,用于下游视觉‑语言模型的训练,降低人工标注成本。
  • 细粒度编辑 – 通过插入文本补丁(如 “在此处加入暴雨”)即可编辑已有视频资产,为后期制作提供新工作流。
  • 开放式 AI 代理 – 该架构展示了在视觉执行前先用语言规划动作的可行路径,可用于机器人仿真或自动驾驶场景生成。

局限性与未来工作

  • 对长视频的可扩展性 – 目前模型仅支持约 8 秒的片段;要延长时长可能需要层次化规划或内存高效的 Transformer。
  • 对字幕质量的依赖 – 对自然视频而言,VLM 生成的描述可能噪声较大,进而影响视频塔的输出。
  • 计算成本 – 联合训练两个大型 Transformer 与流匹配扩散模型资源消耗巨大,限制了小实验室的可及性。
  • 用户控制粒度 – 虽然文本干预有效,但尚未支持更精确的空间控制(如指定对象位置)。

未来研究方向包括层次化交错(场景级语言 → 镜头级视频)、加入音频的多模态条件、以及轻量化蒸馏技术,以将 TV2TV 推向边缘设备。

作者

  • 韩晓创
  • Youssef Emad
  • Melissa Hall
  • John Nguyen
  • Karthik Padthe
  • Liam Robbins
  • Amir Bar
  • 陈德龙
  • Michal Drozdzal
  • Maha Elbayad
  • 于世浩
  • 李尚文
  • Sreya Dutta Roy
  • Jakob Verbeek
  • 徐东 Wang
  • Marjan Ghazvininejad
  • Luke Zettlemoyer
  • Emily Dinan

论文信息

  • arXiv ID: 2512.05103v1
  • 分类: cs.LG, cs.AI, cs.CV
  • 出版时间: 2025 年 12 月 4 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »