[Paper] Diffusion-DRF:用于视频扩散微调的可微奖励流

发布: (2026年1月8日 GMT+8 02:05)
8 min read
原文: arXiv

Source: arXiv - 2601.04153v1

概述

本文提出了 Diffusion‑DRF,这是一种通过向视频扩散模型提供来自冻结的视觉‑语言模型(VLM)的 可微分 反馈来进行微调的新方法。作者将 VLM 的文本‑图像相似度得分转化为在去噪步骤中传播的梯度,从而无需昂贵的人类偏好数据或独立的奖励网络,同时仍然提升了视觉保真度和文本‑视频对齐效果。

关键贡献

  • 可微奖励流 (DRF): 一种将 VLM logits 作为 token 感知梯度通过扩散去噪链进行反向传播的技术。
  • 免训练评估器: 使用现成的 VLM(例如 CLIP、BLIP)作为冻结的奖励模型,省去额外奖励模型训练或偏好数据集的需求。
  • 结构化提示: 一个自动化流水线,在多个语义维度(例如运动、物体、风格)上查询 VLM,以获得更丰富的多维反馈。
  • 梯度检查点以提升效率: 仅在最终去噪步骤中进行反向传播,保持内存和计算开销适中。
  • 模型无关设计: 适用于任何基于扩散的视频生成器,并可扩展到其他生成模态(图像、音频、3‑D)。

方法论

  1. Base Video Diffusion Model(基础视频扩散模型): 从一个预训练的文本到视频扩散模型开始,该模型在文本提示的条件下迭代去噪潜在视频帧。

  2. Frozen VLM Critic(冻结的视觉语言模型评判器): 一个预训练的视觉‑语言模型(例如 CLIP)接收生成的视频帧和原始文本提示,针对每个方面(对象存在、运动一致性、风格等)产生相似度 logits。

  3. Reward Flow Construction(奖励流构建): 将 logits 转换为标量奖励,然后相对于潜在视频表示求导。由于 VLM 是冻结的,梯度仅来源于扩散模型的输出。

  4. Back‑propagation Through Denoising(通过去噪进行反向传播): 使用梯度检查点(gradient checkpointing),作者将 VLM 派生的梯度反向传播到最后几步去噪过程,实质上是“告诉”扩散模型如何调整预测以提升 VLM 分数。

  5. Aspect‑Structured Prompting(面向结构化提示): 为每个语义方面自动生成一组模板化提示(例如 “Is the cat moving smoothly?”),确保 VLM 在多个标准上评估视频,而不是仅依据单一整体相似度。

  6. Optimization Loop(优化循环): 使用标准的 Adam‑style 步骤更新扩散模型参数,唯一的指导来自可微的 VLM 反馈。无需额外的奖励模型训练或人工标签循环。

结果与发现

  • Quality Boost(质量提升): 在标准的 T2V 基准(例如 UCF‑101、MS‑R‑VTT)上,Diffusion‑DRF 将 FVD 分数提升约 15 %,并提高基于 CLIP 的文本‑视频对齐指标。
  • Reduced Reward Hacking(降低奖励作弊): 与可能对学习到的奖励模型过拟合的 Direct Preference Optimization(DPO)不同,Diffusion‑DRF 展示出稳定的训练曲线并避免模式崩溃。
  • Efficiency(效率): 梯度检查点将额外的 GPU 内存限制在基线扩散微调的约 1.2 倍,训练时间仅增加约 30 %。
  • Generalization(泛化能力): 将相同的 DRF 流程应用于文本‑到‑图像扩散(Stable Diffusion)也能获得相似的提升,验证了该方法的模态无关特性。

实际意义

  • 更快的产品迭代: 构建 T2V 服务的公司可以在每个批次只调用一次 VLM 来微调模型,免除收集或标注海量偏好数据集的需求。
  • 降低成本与偏差: 去除人工环路的偏好标注既降低了金钱成本,又减少了潜在的标注偏差,从而实现更公平的视频生成。
  • 即插即用升级: 现有的扩散管道只需少量代码改动即可采用 Diffusion‑DRF——只需导入一个 VLM,启用梯度检查点,然后运行微调循环。
  • 对抗投机的鲁棒性: 由于 VLM 被冻结且具备多方面评估能力,生成器更难通过利用狭窄的奖励信号来“作弊”,从而为下游应用(如广告、在线学习、虚拟制作)提供更可靠的输出。
  • 跨模态扩展: 同样的思路可用于提升音频到视频、文本到 3D,或任何基于扩散的生成任务,只要有可用的冻结多模态评判器。

限制与未来工作

  • Dependence on VLM Quality: 该方法继承了底层 VLM 的偏见和盲点;如果 VLM 对概念的解释出现错误,扩散模型就会被错误地引导。
  • Limited Aspect Coverage: 虽然自动提示覆盖了多个维度,但更细致或特定领域的方面(例如医学影像语义)可能需要自定义提示工程。
  • Scalability to Very Long Videos: 梯度检查点可以减轻内存使用,但对高分辨率、长时段视频进行大量去噪步骤的反向传播仍然计算量大。
  • Future Directions: 作者建议探索自适应方面选择、集成多个 VLM 进行集成反馈,以及将 DRF 扩展到强化学习式课程,其中评判者随时间演化。

Diffusion‑DRF 表明,冻结的、即插即用的视觉语言模型可以作为强大的可微教师,指导视频扩散模型,为开发者和产品团队打开通往更高质量、更好对齐生成视频的低成本路径。

作者

  • Yifan Wang
  • Yanyu Li
  • Sergey Tulyakov
  • Yun Fu
  • Anil Kag

论文信息

  • arXiv ID: 2601.04153v1
  • 分类: cs.CV
  • 出版日期: 2026年1月7日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 编排动态对象的世界

我们物理的4D(3D + 时间)世界中的动态对象不断演化、变形并与其他对象相互作用,导致多样的4D场景动态……