[Paper] HiAR：通过层次去噪实现高效自回归长视频生成

发布: 16小时前 (2026年3月10日 GMT+8 01:58)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.08703v1

概述

论文 HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising 解决了视频合成中长期存在的问题：如何在保持运动一致性和高视觉质量的同时生成任意长度的视频，而不会出现自回归扩散模型中通常出现的质量崩塌。通过重新思考上下文帧的去噪时机和方式，作者提出了一种分层去噪方案，既加快了推理速度，又显著降低了时间漂移。

关键贡献

相同噪声水平条件化: 在与当前块相同的扩散噪声水平上对上下文帧进行条件化即可实现时间一致性，消除了需要完全去噪（高不确定性）上下文并传播错误的需求。
层次自回归 (HiAR) 框架: 颠倒了经典的生成顺序——不再在移动到下一个块之前完成一个块的生成，HiAR 在每个扩散步骤中并行去噪所有块，使每个块的上下文保持在相同噪声水平。
流水线并行推理: 层次结构天然支持流水线执行，在 4 步扩散调度下实现约 1.8× 的壁钟时间加速。
用于运动多样性的 Forward‑KL 正则化器: 引入双向注意力的 forward‑KL 项，以抵消在自回滚蒸馏期间 reverse‑KL（模式寻求）目标导致的低运动捷径。
VBench 上的最新成果: 在 20 秒视频生成任务中取得最高的整体 VBench 分数，并在所有基线中记录到最低的时间漂移。

方法论

自回归扩散回顾 – 传统的 AR 扩散逐块生成视频，总是以 完全去噪 的前块为条件。这种高不确定性的上下文让模型对过去的预测过于自信，任何错误都会迅速累积。
关键洞见 – 相同噪声水平的上下文 – 借鉴双向扩散（前向和后向过程共享相同噪声水平），作者认为 有噪声 的上下文提供了足够的连续性信号，同时保持高不确定性，从而自然抑制错误累积。
分层去噪调度 – 视频被划分为若干时间块（例如 4 秒一段）。在每个扩散步骤 (t)（从高噪声到低噪声），所有块同时向前去噪一步。因此，每个块在相同噪声水平 (t) 下看到其邻近上下文。
并行流水线 – 因为每一步去噪都作用于每个块，计算可以在 GPU 或 CPU 核心之间流水化：当块 1 在步骤 (t) 处理时，块 2 已经可以开始步骤 (t-1)，依此类推。这在不牺牲质量的前提下实现了报告的 1.8× 加速。
自回滚蒸馏 + 前向 KL 正则化 – 为进一步提升长程一致性，模型通过自身回滚进行蒸馏（教师‑学生训练）。仅使用逆 KL 损失会导致模型“保守”，生成低运动视频。加入使用双向注意力掩码计算的前向 KL 项，显式奖励多样的运动模式，平衡两者目标。
训练细节 – 作者在标准视频扩散数据集上训练，使用 4 步去噪调度（远短于典型的 100 步扩散），并采用无分类器引导以实现可控性。

结果与发现

指标 (VBench, 20 s)	HiAR (4‑步)	先前的 AR Diffusion	其他 SOTA
综合得分	0.78（最佳）	0.71	0.73‑0.75
时间漂移（数值越低越好）	0.12（最低）	0.21	0.18‑0.20
推理时间（实际时钟）	比基线 4‑步 AR 快 1.8 倍	–	–

时间一致性： 使用相同噪声水平的条件化相比最强基线将漂移降低约 40 %。
速度： 仅使用四个扩散步，HiAR 能够实现 20 秒片段的近实时生成，显著优于扩散视频模型常见的 50‑100 步。
运动多样性： 去除前向 KL 正则化器会导致运动方差明显下降（模型崩塌为静态帧），验证了该正则化在保持动态方面的作用。

实际意义

长篇视频生成（面向内容创作者）： 开发者现在可以使用更少的扩散步数生成分钟级的连续运动剪辑，使得在设备端或云端提供服务更加可行。
实时视频增强： 流水线推理设计非常适合流媒体管道（例如 AR/VR 覆盖层、直播图形），在这些场景中延迟至关重要。
游戏资产合成： 游戏工作室可以使用 HiAR 生成程序化的过场动画或背景循环，而无需担心长时间播放时的漂移问题。
高效微调： 由于模型使用短扩散调度，对特定领域视频数据（例如医学影像、工业检测）的微调计算成本更低。
API 设计： 层次块接口自然映射到分块视频 API，开发者可以请求“接下来的 N 秒”，而后端则并行对之前的块进行去噪。

限制与未来工作

固定块粒度： 当前层次结构假设块大小统一；在运行时动态调整块长度（例如处理场景切换）仍是一个未解决的挑战。
四步调度权衡： 虽然 4 步速度快，但极高分辨率或高帧率视频仍可能受益于更多步数；将层次化方法扩展到更长的调度需要进一步研究。
Forward‑KL 计算成本： 前向 KL 正则化器所需的双向注意力会增加内存开销，这在边缘设备上可能成为限制因素。
对多模态条件的泛化： 论文聚焦于无条件生成；将 HiAR 扩展到文本到视频或音频驱动的生成是自然的下一步。

作者

Kai Zou
Dian Zheng
Hongbo Liu
Tiankai Hang
Bin Liu
Nenghai Yu

论文信息

arXiv ID: 2603.08703v1
分类: cs.CV
出版日期: 2026年3月9日
PDF: 下载 PDF

[Paper] HiAR：通过层次去噪实现高效自回归长视频生成

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 尺度空间扩散

[Paper] 一起交谈：从音频合成同位3D对话

[Paper] ImprovedGS+: 高性能 C++/CUDA 重新实现策略用于 3D Gaussian Splatting

[Paper] 检索增强的 Gaussian Avatars：提升表情泛化