[Paper] VideoAR：自回归视频生成通过下一帧与尺度预测

发布: 1个月前 (2026年1月10日 GMT+8 01:34)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.05966v1

（未提供需要翻译的正文内容，请提供要翻译的文本。）

概述

本文提出了 VideoAR，一种新的自回归框架，用于生成视频，其质量可与基于扩散的模型相媲美，同时效率更高。通过将多尺度的下一帧预测与视觉自回归分词器相结合，作者实现了高保真、时间连贯的视频合成，并显著减少了推理步骤。

关键贡献

首个大规模视觉自回归（VAR）视频模型，能够同时处理空间和时间依赖。
3‑D 多尺度分词器，将时空信息压缩为离散 token，实现快速自回归解码。
时间稳定性技巧：多尺度时间 RoPE、跨帧错误校正和随机帧遮罩，以抑制长序列错误累积。
多阶段预训练流水线，逐步扩大分辨率和时长，实现空间和时间学习的对齐。
自回归视频生成的最新成果：在 UCF‑101 上 FVD 为 88.6（此前为 99.5），VBench 为 81.74，推理步数比扩散基线减少超过 10 倍。

方法论

分词 – 3‑D 分词器将视频切分为多个空间尺度（例如 8×8、16×16 补丁）和时间步幅的离散 token 层级。这种紧凑的表示同时捕获外观和运动信息，同时保持序列长度在可管理范围内。
自回归建模 – 模型将视频生成视为两阶段问题：
- 帧内 VAR：在当前帧内预测下一个 token，保持空间结构。
- 因果下一帧预测：预测即将到来的帧的 token 集，确保时间因果性。
时间 RoPE 与误差校正 – 将旋转位置嵌入（RoPE）扩展到跨尺度以编码相对时间，并使用轻量级跨帧误差校正模块重新审视早期预测以修正漂移。
训练方案 – 分阶段课程从低分辨率、短片段视频开始，然后逐步提升分辨率和片段长度。随机帧遮蔽迫使模型学习鲁棒的重建，进一步降低误差传播。
推理 – 生成过程在帧之间逐 token（或逐块）进行，但由于 token 词表紧凑，只需少量解码步骤即可生成完整长度的视频。

结果与发现

指标	先前自回归	VideoAR	扩散（大模型）
FVD (UCF‑101)	99.5	88.6	~85
VBench Score	73.2	81.74	82–84
推理步数	~1000	≈90	~1000+
计算（GPU‑小时）	1.2×	0.8×	1.0× (larger model)

VideoAR 在质量上缩小了与扩散模型的差距，同时将推理时间缩短了一个数量级以上。
引入的时间机制显著降低了闪烁和漂移，产生更平滑的长程运动。
消融实验证实，每个组件（多尺度 RoPE、误差校正、随机掩码）都在 FVD 和 VBench 上带来了可衡量的提升。

实际意义

更快的原型制作 – 开发者可以在单个 GPU 上在几秒钟内生成高质量的视频样本，从而实现内容创作、游戏资产流水线或合成数据生成的快速迭代。
可扩展部署 – 基于 token 的自回归设计与现有的 transformer 服务堆栈（如 ONNX、TensorRT）兼容良好，与占用大量内存的扩散管线相比，更易集成到生产服务中。
时间一致性 – 需要连贯运动的应用——例如虚拟化身、视频到视频的翻译，或用于视频感知模型训练的数据——可受益于错误传播的降低。
资源受限环境 – 由于推理轻量，VideoAR 可在边缘设备或成本优化的云实例上运行，为 AR/VR 或实时流媒体场景中的实时视频合成提供可能。

限制与未来工作

分辨率上限 – 虽然多尺度分词器有所帮助，但生成超高清（4K+）视频仍然会消耗大量 token 预算，可能需要进一步的层次化设计。
长期依赖 – 尽管时间 RoPE 与校正能够减轻漂移，长度超过 10 秒的超长片段仍可能出现细微的不一致。
领域泛化 – 该模型主要在动作电影风格的数据集（UCF‑101、Kinetics）上进行评估。要适配高度专业化的领域（医学影像、科学可视化），可能需要领域特定的预训练。
未来方向 – 作者建议探索混合自回归‑扩散方案、更丰富的条件（文本、音频），以及更激进的 token 压缩，以进一步提升质量和速度。

作者

Longbin Ji
Xiaoxiong Liu
Junyuan Shang
Shuohuan Wang
Yu Sun
Hua Wu
Haifeng Wang

论文信息

arXiv ID: 2601.05966v1
类别: cs.CV, cs.AI
发表时间: 2026年1月9日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 基于深度学习的胰腺肿瘤分割模型在公开内镜超声数据集上的表现

背景：胰腺癌是最具侵袭性的癌症之一，生存率低。内镜超声（EUS）是关键的诊断手段，但其...

[Paper] LayerGS：通过2D Gaussian Splatting对分层3D人类化身进行分解与修补

我们提出了一种新颖的框架，将任意姿态的人体分解为可动画的多层 3D 人体化身，并实现身体与服装的分离。Conventi...

[Paper] RoboVIP：多视角视频生成与 Visual Identity Prompting 增强机器人操作

多样性、数量和质量的操作数据对于训练有效的机器人策略至关重要。然而，由于硬件和物理设置的限制……

[Paper] 学习潜在动作世界模型在真实环境中

能够在现实世界中进行推理和规划的智能体需要具备预测其行为后果的能力。虽然 world models 具备这种…