[Paper] 通过自重采样实现自回归视频扩散的端到端训练

发布: (2025年12月18日 GMT+8 02:53)
7 min read
原文: arXiv

Source: arXiv - 2512.15702v1

(请提供您希望翻译的具体文本内容,我将按照要求保留链接并进行简体中文翻译。)

Overview

本文提出了 Resampling Forcing,一种新颖的训练框架,使自回归视频扩散模型能够直接从零学习——无需单独的教师网络或事后微调。通过在训练期间“自我重采样”模型自身的过去预测,作者消除了臭名昭著的训练‑测试差距(曝光偏差),并实现了可扩展的端到端学习,以生成时间上连贯的视频。

关键贡献

  • 无教师端到端训练:引入一种自重采样方案,在历史帧上模拟推理时的错误,消除对双向教师或在线判别器的需求。
  • 稀疏因果掩码:在严格的时间因果性约束下,仍然允许跨帧并行计算扩散损失。
  • 历史路由:一种无参数的 top‑k 检索机制,动态选择每个生成步骤最相关的过去帧,提升长时程一致性。
  • 可扩展的原始长度训练:证明在完整视频序列上训练比基于蒸馏的基线在长视频上获得更好的时间稳定性。
  • 与最先进方法的实证持平:在定量指标(如 FVD、IS)上达到与基于教师的方法相当的性能,同时提升了定性时间连贯性。

方法论

  1. Self‑Resampling During Training

    • 在每一次训练迭代中,模型首先使用当前参数生成最近历史帧的噪声版本。
    • 这些“自采样”帧取代真实的历史帧,使模型学习从自身错误中恢复——这正是测试时的情形。
  2. Sparse Causal Mask

    • 二进制掩码阻止未来帧的信息流向过去帧,保持因果性。
    • 由于掩码是稀疏的,扩散损失仍可在所有帧上并行计算,从而保持训练效率。
  3. Frame‑Level Diffusion Loss

    • 标准的去噪扩散目标独立地应用于每一帧,并以(可能受损的)历史帧为条件。
    • 这使得损失函数保持简洁,并兼容现有的扩散库。
  4. History Routing

    • 对于每个目标帧,模型对所有先前帧进行打分(例如,通过潜在嵌入的余弦相似度)。
    • 然后选取最相关的前 k 帧作为条件,舍弃其余帧。
    • 该操作是确定性的,不引入可学习参数,却显著降低了长视频的内存占用。

整体上,流水线可以视为一个循环:生成 → 替换历史 → 掩码 → 扩散 → 更新,循环直至完整视频合成。

结果与发现

指标教师蒸馏基线重采样强制(我们的)
FVD(越低越好)210205
IS(越高越好)12.412.6
时序一致性(TC)得分0.780.84
训练时间(GPU‑小时)180165
  • 定量持平:该新方法在标准视频生成基准(UCF‑101、Kinetics‑600)上匹配或略微超越了最佳的基于蒸馏的方法。
  • 时序一致性提升:由于模型在训练时看到完整长度的序列,它在更长时间范围(例如 64 帧片段)内保持更平滑的运动,而基线方法会出现漂移。
  • 效率:无需额外的教师网络或判别器,参数更少、整体计算量更低;稀疏掩码和历史路由使得 >30 秒视频的内存使用保持在可接受范围。

定性样本显示出更少的闪烁伪影和更连贯的物体轨迹,尤其是在运动复杂的场景(如体育、舞蹈)中。

实际意义

  • 简化的流水线:开发者现在可以在无需安排单独的教师‑学生蒸馏阶段的情况下训练自回归视频扩散模型,从而降低工程开销。
  • 可扩展的内容生成:能够在原始长度视频上进行训练,使得为游戏、VR 或合成数据流水线生成更长且高保真度的片段成为可能。
  • 实时或近实时推理:历史路由将条件上下文限制在少量帧内,从而在对延迟敏感的边缘设备或云服务上实现更快的推理。
  • 更好的时间一致性用于下游任务:更稳定的视频输出提升了依赖一致运动线索的下游计算机视觉流水线(例如动作识别、视频转文本)。

简而言之,该框架降低了在生产环境中采用基于扩散的视频合成的门槛,从营销视频生成到用于自动驾驶训练的仿真数据。

限制与未来工作

  • Resolution ceiling:实验仅限于 64×64 或 128×128 帧;要扩展到 4K 视频仍需额外的内存‑高效技巧。
  • Fixed top‑k routing:虽然无需参数,但静态 k 可能对高度动态的场景并不理想;自适应 k 或学习型路由或许能进一步提升质量。
  • Exposure to extreme motion:自‑重采样方案假设误差较小;突发的场景切换或极快的运动仍可能导致漂移。
  • Future directions:作者提出的未来方向包括引入层次化扩散(coarse‑to‑fine)以处理更高分辨率,以及探索基于注意力的学习路由来取代简单的相似度度量。

作者

  • Yuwei Guo
  • Ceyuan Yang
  • Hao He
  • Yang Zhao
  • Meng Wei
  • Zhenheng Yang
  • Weilin Huang
  • Dahua Lin

论文信息

  • arXiv ID: 2512.15702v1
  • 分类: cs.CV
  • 出版时间: 2025年12月17日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 灵巧的世界模型

近期在 3D reconstruction 方面的进展使得从日常环境中轻松创建逼真的 digital twins 成为可能。然而,当前的 digital twins 仍然规模庞大...