[Paper] AdaGaR:自适应 Gabor 表示用于动态场景重建

发布: (2026年1月3日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2601.00796v1

Overview

AdaGaR 引入了一种从单个视频流重建动态 3‑D 场景的新方法。通过将 自适应 Gabor‑based primitivetemporally‑aware spline model 相结合,作者实现了高频视觉保真度,同时保持运动平滑且没有插值伪影——这是此前仅使用 Gaussian‑only 管线难以做到的。

关键贡献

  • Adaptive Gabor Representation (AdaGaR‑G): 在经典高斯斑点的基础上加入可学习的频率权重和能量补偿项,使模型能够捕捉细腻纹理而不致渲染不稳定。
  • 通过三次 Hermite 样条实现时间连续性: 使用 Hermite 样条对每个基元的轨迹进行编码,并加入曲率正则化,保证帧间运动平滑。
  • 鲁棒的自适应初始化: 结合现成的深度估计、稠密点跟踪和前景掩码,生成分布均匀的点云,提升收敛速度并减少早期训练伪影。
  • 统一的训练流水线: 所有模块均可微分并端到端优化,使用单一损失同时平衡外观(PSNR/SSIM/LPIPS)、几何(深度一致性)和运动平滑性。
  • 领先的基准结果: 在 Tap‑Vid 与 DAVIS 动态场景数据集上,AdaGaR 达到 PSNR = 35.49SSIM = 0.9433LPIPS = 0.0723,超越了之前的基于高斯的以及神经辐射场(NeRF)基线。

方法论

  1. 原始设计 – 每个场景元素被建模为 类 Gabor 函数:高斯包络乘以正弦载波。载波的频率不是固定的;一个小型神经网络预测每个原始体的频率向量,可在训练过程中自适应。能量补偿标量 重新缩放幅度,以防高频项爆炸。
  2. 时序建模 – 对于每个原始体,其随时间的三维位置使用 三次 Hermite 样条(关键帧处的位置 + 切向量)表示。时序曲率正则化器 对样条二阶导数的快速变化进行惩罚,鼓励物理上合理的运动。
  3. 自适应初始化
    • 深度估计: 预训练的单目深度模型提供初始的三维点云。
    • 点跟踪: 基于光流的跟踪在帧间传播点,给出粗略的运动先验。
    • 前景掩码: 分割掩码剔除背景杂波,使原始体聚焦于动态对象。
      将上述结果组合后作为 Gabor 原始体的种子,在梯度优化开始前使用。
  4. 训练目标 – 加权求和包括:
    • 光度损失(渲染帧的 L2 + 感知 LPIPS),
    • 深度一致性损失(使渲染深度与估计深度对齐),
    • 时序曲率损失,以及
    • 频率幅值和能量平衡的正则项
      所有项均可微分,使用标准 Adam 优化即可。

结果与发现

数据集PSNR ↑SSIM ↑LPIPS ↓
Tap‑Vid (dynamic)35.490.94330.0723
DAVIS (high‑motion)34.10.9380.079
  • 细节保留: 与纯高斯模型相比,AdaGaR 通过学习的高频载波恢复了更锐利的纹理(例如,发丝、织物图案)。
  • 运动平滑度: 插值帧没有抖动或重影;曲率正则化器有效消除了先前工作中出现的“摆动”伪影。
  • 泛化能力: 同一训练模型可用于下游任务——帧插值、深度一致的视频编辑,甚至立体视图合成——无需重新训练。

实际意义

  • 实时 AR/VR 内容创作:开发者可以捕获单个手持视频,并即时生成高保真、可动画的 3D 代理,以用于沉浸式体验。
  • 动态场景编辑:视频编辑者可以在保持真实运动的前提下,操作对象(例如重新定位、重新着色),这得益于显式原语表示。
  • 高效存储与流式传输:由于场景被编码为一组紧凑的自适应 Gabor 原语和样条轨迹,带宽受限的应用(例如云游戏)可以流式传输轻量模型,而非完整视频帧。
  • 机器人与自动驾驶:该方法能够从单目视频生成时间一致的深度图,可提升需要几何和运动线索的感知流水线。

限制与未来工作

  • 对大规模场景的可扩展性: 当前实现假设原语数量相对有限;要扩展到城市尺度的环境可能需要层次化或稀疏表示。
  • 对预训练深度/遮罩模型的依赖: 初始化阶段的错误(例如在反光表面上的深度不准)会传播到最终的重建结果。
  • 实时渲染速度: 虽然比完整的 NeRF 更高效,但渲染仍然需要一定的计算开销;未来工作可以探索 GPU 加速的样条评估或混合光栅化技术。
  • 向多视角输入的扩展: 作者主要关注单目视频;整合立体或多摄像头设置可以进一步提升精度并减少运动估计中的歧义。

AdaGaR 弥合了高频视觉细节与时间一致运动之间的鸿沟,为需要动态 3‑D 重建而不想承担完整神经渲染沉重计算负担的开发者提供了实用工具箱。

作者

  • Jiewen Chan
  • Zhenjun Zhao
  • Yu‑Lun Liu

论文信息

  • arXiv ID: 2601.00796v1
  • 分类: cs.CV
  • 出版日期: 2026年1月2日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »