[Paper] Relit-LiVE: 通过联合学习环境视频进行视频再照明
发布: (2026年5月8日 GMT+8 01:58)
7 分钟阅读
原文: arXiv
Source: arXiv - 2605.06658v1
概述
Relit‑LiVE 解决了计算机视觉中长期存在的一个难题:如何在保持场景外观物理合理且时间上稳定的前提下,对已有视频进行光照更改。通过将原始视频帧与基于扩散的环境贴图预测器相结合,作者实现了高质量的重新照明,而无需相机姿态或完美的内在分解——这在以往针对真实世界影像的方法中是一个限制因素。
关键贡献
- Reference‑guided diffusion rendering – raw input frames are injected into the diffusion process, letting the model recover lost scene cues that intrinsic decompositions usually miss.
- Joint video‑and‑environment‑map prediction – a single diffusion model simultaneously outputs the relit video and per‑frame environment maps aligned to the current view, enforcing geometry‑illumination consistency.
- Pose‑free operation – the framework works without explicit per‑frame camera pose information, handling dynamic lighting and camera motion out‑of‑the‑box.
- Broad downstream utility – beyond relighting, the same pipeline supports material editing, object insertion, and even live streaming relighting.
- State‑of‑the‑art performance – extensive benchmarks on synthetic and real‑world datasets show consistent gains over existing video relighting and neural rendering baselines.
方法论
- 输入预处理 – 将源视频拆分为帧;每帧通过轻量级内在属性估计器(反照率、法线、深度)仅用于提供粗略指导。
- 参考注入 – 将原始 RGB 帧与内在属性图拼接,并作为条件信号输入视频扩散模型。这使网络在需要时“回顾”真实像素值,防止纯内在属性管线出现的漂移。
- 环境视频扩散 – 扩散模型被训练在每个时间步预测每帧环境图(二维光照表示),该环境图在空间上与当前相机视角对齐。环境图和重新光照的帧在一次前向传播中一起生成。
- 时间一致性 – 在扩散主干内部使用时间注意力块将相邻帧关联,促进平滑的光照过渡并抑制闪烁。
- 训练目标 – 结合重建损失(像素级 L2)、感知损失(基于 VGG)以及基于物理的着色损失,后者惩罚预测的环境图、几何形状与渲染外观之间的不匹配。
整个管线在单个 GPU 上端到端运行,仅需原始视频作为输入。
结果与发现
- 定量提升:在真实场景重光基准(Real‑World Relighting Benchmark,RWRB)上,Relit‑LiVE 将 PSNR 提高约 2.1 dB,LPIPS 降低约 0.08,超越了之前的最佳方法。
- 时间稳定性:新的时间闪烁度量显示,与基线方法相比,帧间方差降低了 35 %。
- 对姿态误差的鲁棒性:在有意破坏合成相机姿态的实验中,Relit‑LiVE 的性能衰减平缓,而依赖姿态的方法则表现出剧烈失败。
- 真实场景演示:作者展示了对手持智能手机拍摄、户外街道场景以及室内脱口秀录制的重光效果,所有结果均呈现自然的阴影和高光。
实际意义
- 后期灯光 – 电影制作者和内容创作者可以在拍摄后调整灯光,节省现场时间和设备。
- AR/VR 资产集成 – 开发者可以将虚拟对象插入现有视频流,并让灯光自动匹配周围环境。
- 直播流 – 广播公司可以实时应用动态灯光效果(例如,昼夜转换),无需预先计算场景几何。
- 游戏引擎流水线 – 联合环境贴图预测可以直接供实时渲染器使用,实现过场动画和游戏画面的一致照明。
- 隐私保护的视觉特效 – 由于该方法不需要显式的相机姿态数据,可在姿态估计不适用或不可行的边缘设备上部署。
限制与未来工作
- 对内在估计器的依赖 – 虽然原始帧可以减轻错误,但极度噪声或低分辨率的输入仍会导致次优的重新照明。
- 计算成本 – 扩散推理仍比传统光栅化慢;实时流媒体需要进一步加速(例如蒸馏或专用硬件)。
- 动态几何 – 当前的公式假设每帧的场景几何是静态的;处理可变形物体或大规模场景变化仍是一个未解决的挑战。
- 环境贴图分辨率 – 预测的环境贴图分辨率有限,可能影响高频镜面细节;未来工作可以探索层次化或神经场表示。
总体而言,Relit‑LiVE 将视频重新照明推向实用、可投入生产的使用场景,为电影、游戏以及 AR/VR 等领域提供更灵活的光照工作流打开了大门。
作者
- Weiqing Xiao
- Hong Li
- Xiuyu Yang
- Houyuan Chen
- Wenyi Li
- Tianqi Liu
- Shaocong Xu
- Chongjie Ye
- Hao Zhao
- Beibei Wang
论文信息
- arXiv ID: 2605.06658v1
- 类别: cs.CV
- 出版日期: 2026年5月7日
- PDF: 下载 PDF