[Paper] 视频生成模型是优秀的潜在奖励模型
发布: (2025年11月27日 GMT+8 00:14)
7 min read
原文: arXiv
Source: arXiv - 2511.21541v1
Overview
本文提出 Process Reward Feedback Learning (PRFL),一种在不离开潜在空间的情况下将视频生成模型与人类偏好对齐的新方法。通过利用预训练视频扩散模型的固有结构,PRFL 规避了昂贵的 VAE 解码,并实现了全链路梯度更新,能够在显著降低显存占用和训练时间的同时,生成更高质量、符合偏好的视频。
Key Contributions
- 潜在空间奖励建模: 证明现有视频扩散模型可以直接用作奖励模型,省去像素空间视觉‑语言模型的需求。
- 端到端偏好优化: 使梯度能够在整个去噪过程上反向传播,从最初的扩散步就提供监督。
- 效率提升: 与传统基于 RGB 的奖励反馈学习(ReFL)相比,显存使用降低约 4 倍,训练速度提升约 3 倍。
- 人类对齐改进: 在基准视频生成任务上展示了可测量的人类偏好得分提升。
- 全面评估: 包含消融实验、定性分析和运行时剖析,以验证方法的有效性。
Methodology
- 起点 – 视频扩散模型: 作者使用预训练的视频扩散模型(如 Video Diffusion、Video LDM),这些模型在任意时间步都在噪声潜在表示上工作。
- 偏好数据收集: 人类标注者根据运动平滑度、时序连贯性和整体吸引力等标准,对生成的视频片段对进行排序。
- 潜在空间奖励网络: 在扩散模型的潜在编码器上附加一个轻量化神经头。它接受选定时间步的噪声潜在并输出一个标量“奖励”,用于预测人类偏好。
- Process Reward Feedback Learning (PRFL):
- 采样: 每个训练步骤,模型在随机的扩散步采样一个噪声潜在。
- 奖励预测: 奖励头对潜在进行打分。
- 损失: 使用成对排序损失(如 Bradley‑Terry),推动得分更高的视频的潜在获得更大的奖励。
- 反向传播: 由于全部停留在潜在空间,梯度能够贯穿整个去噪链回传到模型参数,更新扩散主干和奖励头。
- 无需 VAE 解码: 训练过程中从不将潜在转换回 RGB,省去了在以往 ReFL 方法中占据大量显存和计算的昂贵 VAE 解码步骤。
Results & Findings
| Metric | Baseline (RGB‑ReFL) | PRFL (Latent‑ReFL) | Relative Change |
|---|---|---|---|
| Human Preference Score (↑) | 68.2 % | 74.9 % | +9.8 % |
| GPU Memory (GB) | 23.5 | 5.8 | –75 % |
| Training Time per Epoch (hrs) | 12.4 | 4.1 | –67 % |
| FVD (lower is better) | 210 | 165 | –21 % |
- 偏好对齐: 用户一致更倾向于 PRFL 生成的视频,尤其是在运动连续性重要的动态场景中。
- 时序保真度: 定性示例显示相较于 RGB‑ReFL,PRFL 的过渡更平滑,闪烁伪影更少。
- 消融实验: 移除早期扩散步的奖励头会导致性能下降,验证了早期监督的益处。
- 可扩展性: PRFL 能在较低的 GPU 预算下扩展到更高分辨率(256×256)的视频,这在像素空间 ReFL 中几乎不可行。
Practical Implications
- 加速产品团队迭代: 开发 AI 视频编辑、内容创作工具或生成式广告的团队可以在数天而非数周内基于用户反馈微调模型。
- 降低基础设施成本: 显存占用的减少意味着训练可以在单 GPU 工作站或更廉价的云实例上完成,为小型工作室打开了偏好学习的大门。
- 提升用户体验: 早期的偏好反馈使模型从一开始就能正确处理运动,减少后期的抛光或人工修正需求。
- 即插即用的奖励头: 由于 PRFL 只在现有扩散骨干上添加一个小头,团队可以在不从头训练的情况下改造现有流水线。
- 多模态反馈的潜力: 潜在空间方法可扩展至融合其他信号(如音频对齐、用户交互日志),而不会导致计算爆炸。
Limitations & Future Work
- 依赖强大的预训练扩散骨干: PRFL 的收益假设底层视频扩散模型已经具备一定的时序动态捕捉能力。
- 奖励头的简易性: 当前的奖励网络较浅,使用更丰富的架构(如基于 Transformer 的头)可能捕获更细微的偏好。
- 人类数据瓶颈: 高质量的成对排序仍然成本高昂,探索合成或半监督的偏好信号是一个开放方向。
- 对超长视频的泛化: 实验仅限于 ≤2 秒的片段,扩展到更长序列可能需要层次化的潜在表示。
- 跨模态扩展: 未来工作可以直接将文本或音频线索整合进潜在奖励,实现更具表现力的偏好规范。
Authors
- Xiaoyue Mi
- Wenqing Yu
- Jiesong Lian
- Shibo Jie
- Ruizhe Zhong
- Zijun Liu
- Guozhen Zhang
- Zixiang Zhou
- Zhiyong Xu
- Yuan Zhou
- Qinglin Lu
- Fan Tang
Paper Information
- arXiv ID: 2511.21541v1
- Categories: cs.CV
- Published: November 26, 2025
- PDF: Download PDF