[Paper] Relit-LiVE: 通过联合学习环境视频进行视频再照明

发布: 3天前 (2026年5月8日 GMT+8 01:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.06658v1

概述

Relit‑LiVE 解决了计算机视觉中长期存在的一个难题：如何在保持场景外观物理合理且时间上稳定的前提下，对已有视频进行光照更改。通过将原始视频帧与基于扩散的环境贴图预测器相结合，作者实现了高质量的重新照明，而无需相机姿态或完美的内在分解——这在以往针对真实世界影像的方法中是一个限制因素。

Reference‑guided diffusion rendering – raw input frames are injected into the diffusion process, letting the model recover lost scene cues that intrinsic decompositions usually miss.
Joint video‑and‑environment‑map prediction – a single diffusion model simultaneously outputs the relit video and per‑frame environment maps aligned to the current view, enforcing geometry‑illumination consistency.
Pose‑free operation – the framework works without explicit per‑frame camera pose information, handling dynamic lighting and camera motion out‑of‑the‑box.
Broad downstream utility – beyond relighting, the same pipeline supports material editing, object insertion, and even live streaming relighting.
State‑of‑the‑art performance – extensive benchmarks on synthetic and real‑world datasets show consistent gains over existing video relighting and neural rendering baselines.

输入预处理 – 将源视频拆分为帧；每帧通过轻量级内在属性估计器（反照率、法线、深度）仅用于提供粗略指导。
参考注入 – 将原始 RGB 帧与内在属性图拼接，并作为条件信号输入视频扩散模型。这使网络在需要时“回顾”真实像素值，防止纯内在属性管线出现的漂移。
环境视频扩散 – 扩散模型被训练在每个时间步预测每帧环境图（二维光照表示），该环境图在空间上与当前相机视角对齐。环境图和重新光照的帧在一次前向传播中一起生成。
时间一致性 – 在扩散主干内部使用时间注意力块将相邻帧关联，促进平滑的光照过渡并抑制闪烁。
训练目标 – 结合重建损失（像素级 L2）、感知损失（基于 VGG）以及基于物理的着色损失，后者惩罚预测的环境图、几何形状与渲染外观之间的不匹配。

整个管线在单个 GPU 上端到端运行，仅需原始视频作为输入。

定量提升：在真实场景重光基准（Real‑World Relighting Benchmark，RWRB）上，Relit‑LiVE 将 PSNR 提高约 2.1 dB，LPIPS 降低约 0.08，超越了之前的最佳方法。
时间稳定性：新的时间闪烁度量显示，与基线方法相比，帧间方差降低了 35 %。
对姿态误差的鲁棒性：在有意破坏合成相机姿态的实验中，Relit‑LiVE 的性能衰减平缓，而依赖姿态的方法则表现出剧烈失败。
真实场景演示：作者展示了对手持智能手机拍摄、户外街道场景以及室内脱口秀录制的重光效果，所有结果均呈现自然的阴影和高光。

总体而言，Relit‑LiVE 将视频重新照明推向实用、可投入生产的使用场景，为电影、游戏以及 AR/VR 等领域提供更灵活的光照工作流打开了大门。