[Paper] 通过自重采样实现自回归视频扩散的端到端训练

发布: 1个月前 (2025年12月18日 GMT+8 02:53)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.15702v1

（请提供您希望翻译的具体文本内容，我将按照要求保留链接并进行简体中文翻译。）

Overview

本文提出了 Resampling Forcing，一种新颖的训练框架，使自回归视频扩散模型能够直接从零学习——无需单独的教师网络或事后微调。通过在训练期间“自我重采样”模型自身的过去预测，作者消除了臭名昭著的训练‑测试差距（曝光偏差），并实现了可扩展的端到端学习，以生成时间上连贯的视频。

Self‑Resampling During Training
- 在每一次训练迭代中，模型首先使用当前参数生成最近历史帧的噪声版本。
- 这些“自采样”帧取代真实的历史帧，使模型学习从自身错误中恢复——这正是测试时的情形。
Sparse Causal Mask
- 二进制掩码阻止未来帧的信息流向过去帧，保持因果性。
- 由于掩码是稀疏的，扩散损失仍可在所有帧上并行计算，从而保持训练效率。
Frame‑Level Diffusion Loss
- 标准的去噪扩散目标独立地应用于每一帧，并以（可能受损的）历史帧为条件。
- 这使得损失函数保持简洁，并兼容现有的扩散库。
History Routing
- 对于每个目标帧，模型对所有先前帧进行打分（例如，通过潜在嵌入的余弦相似度）。
- 然后选取最相关的前 k 帧作为条件，舍弃其余帧。
- 该操作是确定性的，不引入可学习参数，却显著降低了长视频的内存占用。

整体上，流水线可以视为一个循环：生成 → 替换历史 → 掩码 → 扩散 → 更新，循环直至完整视频合成。

定性样本显示出更少的闪烁伪影和更连贯的物体轨迹，尤其是在运动复杂的场景（如体育、舞蹈）中。

简而言之，该框架降低了在生产环境中采用基于扩散的视频合成的门槛，从营销视频生成到用于自动驾驶训练的仿真数据。

Resolution ceiling：实验仅限于 64×64 或 128×128 帧；要扩展到 4K 视频仍需额外的内存‑高效技巧。
Fixed top‑k routing：虽然无需参数，但静态 k 可能对高度动态的场景并不理想；自适应 k 或学习型路由或许能进一步提升质量。
Exposure to extreme motion：自‑重采样方案假设误差较小；突发的场景切换或极快的运动仍可能导致漂移。
Future directions：作者提出的未来方向包括引入层次化扩散（coarse‑to‑fine）以处理更高分辨率，以及探索基于注意力的学习路由来取代简单的相似度度量。