[Paper] V-RGBX:视频编辑对内在属性的精确控制
Source: arXiv - 2512.11799v1
概览
本文提出了 V‑RGBX,这是首个端到端系统,能够同时 理解 与 编辑 视频的内在属性——如反照率、表面法线、材质参数和光照——并保持输出的真实感和时间上的稳定性。通过将逆渲染与生成式视频模型相结合,V‑RGBX 让创作者只需编辑少量关键帧(例如更换汽车的漆面或重新照亮房间),系统即可在物理上合理地将这些更改自动传播到整段视频。
关键贡献
- 统一的内在感知流水线 – 将视频逆渲染、内在条件合成以及基于关键帧的编辑整合到一个可训练的框架中。
- 交错条件机制 – 一种新颖的方式,将内在图(反照率、法线、材质、辐照度)注入视频扩散模型,实现细粒度、物理驱动的控制。
- 时间一致性保证 – 通过架构和损失设计强制帧间连贯,避免了许多视频‑到‑视频模型常见的闪烁问题。
- 关键帧编辑界面 – 用户在稀疏的关键帧上编辑任意内在通道,系统会自动将编辑结果传播至整段视频。
- 最先进的结果 – 在多个基准上展示了相较于已有视频编辑和内在分解方法的更高视觉质量和编辑保真度。
方法论
-
视频逆渲染 – 主干编码器处理输入视频并预测每帧的内在图:
- 反照率(漫反射颜色)
- 法线(表面方向)
- 材质(高光/粗糙度)
- 辐照度(光照)
这些图与重建损失共同学习,损失鼓励使用简易可微渲染器渲染的图像与原始帧相匹配。
-
内在条件视频合成 – 视频扩散模型(在时空张量上运行的 3‑D UNet)将内在图作为条件输入。 “交错条件” 在多个扩散步骤中交替注入低层(像素级)和高层(全局)内在特征,使生成器在保持运动线索的同时对外观进行细致控制。
-
关键帧编辑循环 – 用户在少量关键帧上修改任意内在图(例如将汽车涂成红色、增亮窗户)。编辑后的图替换这些帧的原始图,扩散模型基于 混合 的内在序列重新生成视频。时间传播损失确保编辑属性平滑地流向相邻帧。
-
训练目标 – 系统优化以下组合损失:
- 逆渲染的重建损失
- 合成的扩散去噪损失
- 时间一致性损失(光流引导)
- 内在正则化(平滑性、物理可行性)
结果与发现
- 真实感与一致性 – V‑RGBX 在 PSNR/SSIM 上优于基线(如视频‑到‑视频 GAN、逐帧扩散),并且时间扭曲误差更低。
- 编辑保真度 – 定量指标(如编辑后反照率的 L2 误差)显示,关键帧上的更改能够在整个剪辑中准确复现,即使在复杂运动下亦如此。
- 用户研究 – 参与者在“更改移动汽车的颜色”和“重新照亮室内场景”等任务中更偏好 V‑RGBX 的输出,理由是更真实且无闪烁。
- 速度 – 虽然扩散模型计算量大,作者报告相较于朴素的逐帧扩散推理快约 2‑3 倍,因为内在图在时间维度上被复用。
实际意义
- 内容创作流水线 – V‑RGBX 可集成到 VFX 或游戏资产流水线中,快速原型化灯光或材质更改,无需重新渲染整个场景。
- AR/VR 实时编辑 – 内在图仅需存储一次,可在设备端用于重新照明或重新上色,实现交互式体验且带宽需求极低。
- 自动化后期制作 – 工作室可自动完成颜色分级或对象级修饰等繁琐任务,解放艺术家专注创意决策。
- 数据增强 – 可生成具备可控内在变化(如不同天气或材质条件)的合成视频数据集,用于训练鲁棒的感知模型。
局限性与未来工作
- 计算需求 – 扩散主干仍需高端 GPU 才能达到可接受的延迟,实时编辑仍不可实现。
- 内在歧义 – 在高度镜面或半透明场景中,逆渲染步骤可能产生反照率/法线的歧义分割,限制编辑精度。
- 受限的模态 – 当前实现仅处理四个内在通道,若能扩展到次表面散射或体积光照将提升适用范围。
- 用户界面 – 论文展示了通过脚本进行关键帧编辑,面向非技术艺术家的完善 UI 仍是一个待解决的工程挑战。
总体而言,V‑RGBX 在物理驱动、用户友好的视频编辑方向迈出了重要一步,为构建下一代视觉内容工具的开发者打开了新可能。
作者
- Ye Fang
- Tong Wu
- Valentin Deschaintre
- Duygu Ceylan
- Iliyan Georgiev
- Chun-Hao Paul Huang
- Yiwei Hu
- Xuelin Chen
- Tuanfeng Yang Wang
论文信息
- arXiv ID: 2512.11799v1
- 分类: cs.CV
- 发布日期: 2025 年 12 月 12 日
- PDF: Download PDF