[Paper] WildRayZer:自监督大视角合成在动态环境中

发布: (2026年1月16日 GMT+8 02:59)
6 min read
原文: arXiv

Source: arXiv - 2601.10716v1

概述

WildRayZer 引入了一种自监督流水线,即使在相机和物体同时运动的情况下,也能合成场景的全新视角。通过自动检测并遮蔽瞬时(移动)元素,它规避了传统静态场景视图合成模型常见的重影和几何错误,使得在真实动态影像中实现高质量、前馈式 NVS 成为可能。

关键贡献

  • 自监督瞬态检测: 使用仅静态渲染器生成残差,作为伪运动掩码,消除手工标注的需求。
  • 运动感知的 token gating: 对输入 token 进行掩码并对损失梯度进行门控,使网络在关注静态背景的同时仍能处理动态前景。
  • 大规模动态数据集: 整理 Dynamic RealEstate10K (D‑RE10K)(≈15 K 条随意视频序列)以及配套基准 D‑RE10K‑iPhone 用于评估瞬态感知的 NVS。
  • 单次前向推理: 在无需昂贵的场景级优化的情况下实现最先进的质量,优于基于优化的方法和现有的前向基线。

方法论

  1. 仅静态渲染: 传统的 NeRF 风格静态渲染器从输入视图预测刚性背景。
  2. 残差分析: 渲染的背景与原始图像之间的差异突出显示无法用静态几何解释的区域——即运动物体、光照变化等。
  3. 伪运动掩码: 将这些残差进行阈值化,生成瞬时内容的粗略掩码。
  4. 蒸馏运动估计器: 使用伪掩码训练轻量级运动估计网络,以预测任意新视图的像素级运动概率。
  5. Token 掩码与梯度门控: 在训练期间,将对应高运动区域的 token 屏蔽,并阻断这些区域的损失梯度,使模型学习稳健的背景补全,同时在需要时仍能渲染运动物体。
  6. 端到端自监督: 整个流水线在没有任何真实掩码或深度图的情况下进行训练,仅依赖分析‑合成循环。

结果与发现

  • 量化提升: 在 D‑RE10K‑iPhone 上,WildRayZer 相较于最强基线,PSNR/SSIM 分别提升约 1.5 dB 和 0.04,同时降低了动态区域的重影伪影。
  • 瞬态去除: 尽管这些运动掩码是无监督生成的,但其与手工标注的运动区域的 IoU 超过 85 %。
  • 速度: 单次前向传播(在 RTX 3080 上每个视图约 0.12 秒)即可生成全分辨率的新视图,而竞争方法需要数分钟的优化循环。
  • 泛化能力: 在 D‑RE10K 上训练的模型能够良好迁移到其他动态视频源(例如手持智能手机拍摄的全景),并保持视觉保真度。

实际意义

  • 实时 AR/VR 内容创作: 开发者可以从随手拍摄的手持视频中生成沉浸式 3‑D 漫游,无需对移动的人或宠物进行费力的清理。
  • 机器人动态场景重建: 机器人能够在忽略移动障碍物的情况下构建可靠的环境静态地图,从而提升导航和 SLAM 的鲁棒性。
  • 游戏和电影的内容流水线: 艺术家可以将现场拍摄的视频重新用于背景板,自动剔除剧组人员的移动和道具。
  • 可扩展的云服务: 由于推理是前馈的,基于云的视图合成 API 能够在适度的 GPU 预算下大规模处理动态场景请求。

限制与未来工作

  • 粗糙的运动掩码: 基于残差的掩码可能会遗漏细微的运动(例如小阴影)或对半静态物体过度掩码,导致偶尔细节丢失。
  • 假设主要是静态背景: 场景中大部分视野是动态的(例如拥挤的节日)仍然会挑战静态渲染器骨干网络。
  • 数据集偏差: D‑RE10K 侧重于室内/室外住宅空间;更广泛的领域覆盖(工业场景、航空影像)仍有待探索。
  • 未来方向: 作者建议整合时间一致性损失,使用多尺度注意力细化掩码粒度,并将框架扩展到处理全场景变形(例如布料模拟)。

作者

  • Xuweiyi Chen
  • Wentao Zhou
  • Zezhou Cheng

论文信息

  • arXiv ID: 2601.10716v1
  • 分类: cs.CV
  • 出版日期: 2026年1月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »