[Paper] VideoAR:自回归视频生成通过下一帧与尺度预测

发布: (2026年1月10日 GMT+8 01:34)
6 min read
原文: arXiv

Source: arXiv - 2601.05966v1

(未提供需要翻译的正文内容,请提供要翻译的文本。)

概述

本文提出了 VideoAR,一种新的自回归框架,用于生成视频,其质量可与基于扩散的模型相媲美,同时效率更高。通过将多尺度的下一帧预测与视觉自回归分词器相结合,作者实现了高保真、时间连贯的视频合成,并显著减少了推理步骤。

关键贡献

  • 首个大规模视觉自回归(VAR)视频模型,能够同时处理空间和时间依赖。
  • 3‑D 多尺度分词器,将时空信息压缩为离散 token,实现快速自回归解码。
  • 时间稳定性技巧:多尺度时间 RoPE、跨帧错误校正和随机帧遮罩,以抑制长序列错误累积。
  • 多阶段预训练流水线,逐步扩大分辨率和时长,实现空间和时间学习的对齐。
  • 自回归视频生成的最新成果:在 UCF‑101 上 FVD 为 88.6(此前为 99.5),VBench 为 81.74,推理步数比扩散基线减少超过 10 倍。

方法论

  1. 分词 – 3‑D 分词器将视频切分为多个空间尺度(例如 8×8、16×16 补丁)和时间步幅的离散 token 层级。这种紧凑的表示同时捕获外观和运动信息,同时保持序列长度在可管理范围内。

  2. 自回归建模 – 模型将视频生成视为两阶段问题:

    • 帧内 VAR:在当前帧内预测下一个 token,保持空间结构。
    • 因果下一帧预测:预测即将到来的帧的 token 集,确保时间因果性。
  3. 时间 RoPE 与误差校正 – 将旋转位置嵌入(RoPE)扩展到跨尺度以编码相对时间,并使用轻量级跨帧误差校正模块重新审视早期预测以修正漂移。

  4. 训练方案 – 分阶段课程从低分辨率、短片段视频开始,然后逐步提升分辨率和片段长度。随机帧遮蔽迫使模型学习鲁棒的重建,进一步降低误差传播。

  5. 推理 – 生成过程在帧之间逐 token(或逐块)进行,但由于 token 词表紧凑,只需少量解码步骤即可生成完整长度的视频。

结果与发现

指标先前自回归VideoAR扩散(大模型)
FVD (UCF‑101)99.588.6~85
VBench Score73.281.7482–84
推理步数~1000≈90~1000+
计算(GPU‑小时)1.2×0.8×1.0× (larger model)
  • VideoAR 在质量上缩小了与扩散模型的差距,同时将推理时间缩短了一个数量级以上。
  • 引入的时间机制显著降低了闪烁和漂移,产生更平滑的长程运动。
  • 消融实验证实,每个组件(多尺度 RoPE、误差校正、随机掩码)都在 FVD 和 VBench 上带来了可衡量的提升。

实际意义

  • 更快的原型制作 – 开发者可以在单个 GPU 上在几秒钟内生成高质量的视频样本,从而实现内容创作、游戏资产流水线或合成数据生成的快速迭代。
  • 可扩展部署 – 基于 token 的自回归设计与现有的 transformer 服务堆栈(如 ONNX、TensorRT)兼容良好,与占用大量内存的扩散管线相比,更易集成到生产服务中。
  • 时间一致性 – 需要连贯运动的应用——例如虚拟化身、视频到视频的翻译,或用于视频感知模型训练的数据——可受益于错误传播的降低。
  • 资源受限环境 – 由于推理轻量,VideoAR 可在边缘设备或成本优化的云实例上运行,为 AR/VR 或实时流媒体场景中的实时视频合成提供可能。

限制与未来工作

  • 分辨率上限 – 虽然多尺度分词器有所帮助,但生成超高清(4K+)视频仍然会消耗大量 token 预算,可能需要进一步的层次化设计。
  • 长期依赖 – 尽管时间 RoPE 与校正能够减轻漂移,长度超过 10 秒的超长片段仍可能出现细微的不一致。
  • 领域泛化 – 该模型主要在动作电影风格的数据集(UCF‑101、Kinetics)上进行评估。要适配高度专业化的领域(医学影像、科学可视化),可能需要领域特定的预训练。
  • 未来方向 – 作者建议探索混合自回归‑扩散方案、更丰富的条件(文本、音频),以及更激进的 token 压缩,以进一步提升质量和速度。

作者

  • Longbin Ji
  • Xiaoxiong Liu
  • Junyuan Shang
  • Shuohuan Wang
  • Yu Sun
  • Hua Wu
  • Haifeng Wang

论文信息

  • arXiv ID: 2601.05966v1
  • 类别: cs.CV, cs.AI
  • 发表时间: 2026年1月9日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »