[Paper] DiffusionBrowser:通过多分支解码器实现交互式 Diffusion 预览

发布: (2025年12月16日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.13690v1

概述

DiffusionBrowser 引入了一种轻量级、模型无关的解码器,允许用户窥视视频扩散模型的去噪步骤,甚至在生成过程中实时引导。它能够在不到一秒的时间内为 4 秒的片段生成高保真 RGB 预览和场景固有图,使传统上不透明、缓慢的过程转变为交互式体验。

关键贡献

  • 交互式预览解码器:一种多分支解码器,可从任意中间时间步或 Transformer 块生成 RGB 帧以及辅助模态(深度、分割、光流等)。
  • 实时性能:实现 >4 倍于实时的预览生成速度(约每秒视频 0.2 秒)。
  • 随机性重新注入与模态引导:允许用户在中间步骤重新引入随机性或对特定模态(例如深度)进行偏置,从而对最终视频进行细粒度控制。
  • 模型无关设计:可与任何预训练视频扩散主干配合使用,无需对主干进行重新训练。
  • 可解释性工具包:利用学习到的解码器探查在去噪过程中场景布局、对象身份和运动是如何逐步组装的。

方法论

  1. Base diffusion model – 作者从任何现成的视频扩散模型(例如 Imagen‑Video、Make‑A‑Video)开始,该模型迭代去噪噪声潜在序列。

  2. Multi‑branch decoder – 一个小型、可训练的网络被附加到扩散主干上。它接收来自选定时间步或 Transformer 层的隐藏状态,并同时预测:

    • RGB 帧(视觉预览)
    • 场景内在属性,如深度、语义掩码和光流。
      解码器通过轻量级的监督损失进行训练,使其输出与真实视频及其派生模态对齐。
  3. Interactive loop – 在推理过程中,用户可以在任意步骤暂停扩散过程,向解码器请求预览,并可选地修改潜在变量(例如重新加入噪声或注入深度提示)。随后扩散从修改后的状态继续进行。

  4. Probing analysis – 通过在不同时间步提取解码器输出,作者可视化高级概念(对象、布局)的出现方式,为黑箱去噪动态提供新的视角。

结果与发现

  • 速度:解码器在 < 1 秒 内渲染出 4 秒的视频预览,相比使用原始扩散模型生成完整视频提升了 4 倍速度。
  • 质量:预览帧保持一致的色彩调色板、运动轨迹和粗糙几何形状,与最终输出相比,平均 LPIPS 相对于全分辨率视频降低了 0.12。
  • 控制:在早期步骤重新注入随机性可以显著改变场景构图,而模态引导(例如固定深度)在保持布局的同时允许风格变化。
  • 可解释性:可视化显示场景布局(深度、分割)在早期(≈ t = 0.7 T)就已确定,而细腻的纹理和颜色细节在后期步骤中逐渐细化,验证了关于扩散过程由粗到细的假设。

实际意义

  • 快速原型:创作者可以在几秒钟内而不是几分钟内迭代视频概念,显著缩短故事板、UI 动画或广告模型的反馈循环。
  • 交互式编辑工具:将其集成到视频编辑器(例如 After Effects 插件)中,艺术家可以在生成过程中暂停,调整深度或运动,然后继续,实现“实时”扩散编辑。
  • 调试与安全:构建生成管道的开发者可以使用预览解码器提前发现不良伪影,减少计算浪费,并在完整合成前缓解有害输出。
  • 跨模态应用:由于解码器输出深度、分割和光流,下游任务(如 AR 放置、碰撞检测)可以利用这些中间提示,而无需等待最终视频。

局限性与未来工作

  • 解码器容量与保真度:轻量级解码器在细粒度纹理细节与速度之间进行权衡;极高分辨率的预览仍可能出现卡顿。
  • 对主干质量的依赖:虽然与模型无关,但预览质量受到底层扩散模型表征能力的限制。
  • 用户界面设计:本文展示了技术可行性,但交互控制的人体工学(例如,用于随机性重新注入的 UI 小部件)仍待未来探索。
  • 扩展到其他模态:未来工作可以加入音频预览或文本到视频的条件化,并探索将解码器与扩散主干联合训练,以实现更紧密的集成。

作者

  • Susung Hong
  • Chongjian Ge
  • Zhifei Zhang
  • Jui‑Hsien Wang

论文信息

  • arXiv ID: 2512.13690v1
  • 分类: cs.CV, cs.AI, cs.GR, cs.LG
  • 发表时间: 2025年12月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »