[Paper] VideoAR:自回归视频生成通过下一帧与尺度预测
发布: (2026年1月10日 GMT+8 01:34)
6 min read
原文: arXiv
Source: arXiv - 2601.05966v1
(未提供需要翻译的正文内容,请提供要翻译的文本。)
概述
本文提出了 VideoAR,一种新的自回归框架,用于生成视频,其质量可与基于扩散的模型相媲美,同时效率更高。通过将多尺度的下一帧预测与视觉自回归分词器相结合,作者实现了高保真、时间连贯的视频合成,并显著减少了推理步骤。
关键贡献
- 首个大规模视觉自回归(VAR)视频模型,能够同时处理空间和时间依赖。
- 3‑D 多尺度分词器,将时空信息压缩为离散 token,实现快速自回归解码。
- 时间稳定性技巧:多尺度时间 RoPE、跨帧错误校正和随机帧遮罩,以抑制长序列错误累积。
- 多阶段预训练流水线,逐步扩大分辨率和时长,实现空间和时间学习的对齐。
- 自回归视频生成的最新成果:在 UCF‑101 上 FVD 为 88.6(此前为 99.5),VBench 为 81.74,推理步数比扩散基线减少超过 10 倍。
方法论
-
分词 – 3‑D 分词器将视频切分为多个空间尺度(例如 8×8、16×16 补丁)和时间步幅的离散 token 层级。这种紧凑的表示同时捕获外观和运动信息,同时保持序列长度在可管理范围内。
-
自回归建模 – 模型将视频生成视为两阶段问题:
- 帧内 VAR:在当前帧内预测下一个 token,保持空间结构。
- 因果下一帧预测:预测即将到来的帧的 token 集,确保时间因果性。
-
时间 RoPE 与误差校正 – 将旋转位置嵌入(RoPE)扩展到跨尺度以编码相对时间,并使用轻量级跨帧误差校正模块重新审视早期预测以修正漂移。
-
训练方案 – 分阶段课程从低分辨率、短片段视频开始,然后逐步提升分辨率和片段长度。随机帧遮蔽迫使模型学习鲁棒的重建,进一步降低误差传播。
-
推理 – 生成过程在帧之间逐 token(或逐块)进行,但由于 token 词表紧凑,只需少量解码步骤即可生成完整长度的视频。
结果与发现
| 指标 | 先前自回归 | VideoAR | 扩散(大模型) |
|---|---|---|---|
| FVD (UCF‑101) | 99.5 | 88.6 | ~85 |
| VBench Score | 73.2 | 81.74 | 82–84 |
| 推理步数 | ~1000 | ≈90 | ~1000+ |
| 计算(GPU‑小时) | 1.2× | 0.8× | 1.0× (larger model) |
- VideoAR 在质量上缩小了与扩散模型的差距,同时将推理时间缩短了一个数量级以上。
- 引入的时间机制显著降低了闪烁和漂移,产生更平滑的长程运动。
- 消融实验证实,每个组件(多尺度 RoPE、误差校正、随机掩码)都在 FVD 和 VBench 上带来了可衡量的提升。
实际意义
- 更快的原型制作 – 开发者可以在单个 GPU 上在几秒钟内生成高质量的视频样本,从而实现内容创作、游戏资产流水线或合成数据生成的快速迭代。
- 可扩展部署 – 基于 token 的自回归设计与现有的 transformer 服务堆栈(如 ONNX、TensorRT)兼容良好,与占用大量内存的扩散管线相比,更易集成到生产服务中。
- 时间一致性 – 需要连贯运动的应用——例如虚拟化身、视频到视频的翻译,或用于视频感知模型训练的数据——可受益于错误传播的降低。
- 资源受限环境 – 由于推理轻量,VideoAR 可在边缘设备或成本优化的云实例上运行,为 AR/VR 或实时流媒体场景中的实时视频合成提供可能。
限制与未来工作
- 分辨率上限 – 虽然多尺度分词器有所帮助,但生成超高清(4K+)视频仍然会消耗大量 token 预算,可能需要进一步的层次化设计。
- 长期依赖 – 尽管时间 RoPE 与校正能够减轻漂移,长度超过 10 秒的超长片段仍可能出现细微的不一致。
- 领域泛化 – 该模型主要在动作电影风格的数据集(UCF‑101、Kinetics)上进行评估。要适配高度专业化的领域(医学影像、科学可视化),可能需要领域特定的预训练。
- 未来方向 – 作者建议探索混合自回归‑扩散方案、更丰富的条件(文本、音频),以及更激进的 token 压缩,以进一步提升质量和速度。
作者
- Longbin Ji
- Xiaoxiong Liu
- Junyuan Shang
- Shuohuan Wang
- Yu Sun
- Hua Wu
- Haifeng Wang
论文信息
- arXiv ID: 2601.05966v1
- 类别: cs.CV, cs.AI
- 发表时间: 2026年1月9日
- PDF: 下载 PDF