[Paper] ReCoSplat:使用渲染对比的自回归前馈高斯点绘

发布: (2026年3月11日 GMT+8 01:58)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.09968v1

Overview

ReCoSplat 是一种用于 在线新视角合成 的全新前馈模型,能够处理有或没有已知相机姿态或内参的视频流。通过将自回归高斯‑splatting 主干与巧妙的 “render‑and‑compare” 反馈回路相结合,即使在其依赖的姿态估计噪声较大时,系统也能保持稳定——这在真实世界的 AR/VR 流程中是常见问题。

关键贡献

  • 自回归高斯点绘(Autoregressive Gaussian Splatting)用于未标定输入 – 可直接使用原始视频帧,实时估计相机姿态。
  • 渲染并比较(Render‑and‑Compare,ReCo)模块 – 从预测视点渲染当前场景,与输入帧进行比较,并使用残差作为条件信号,在推理期间校正姿态漂移。
  • 混合 KV‑缓存压缩 – 两阶段内存节省方案(早期层截断 + 块级选择性保留),在超过 100 帧的序列中将 transformer 风格的键值缓存削减 >90 %。
  • 在分布内(如 LLFF、Tanks‑and‑Temples)和分布外基准上实现 最新水平 的结果,覆盖四种输入配置(有/无姿态,有/无内参)。
  • 开源发布 代码和预训练模型,促进快速采用。

方法论

  1. Gaussian Splatting Backbone – 场景被表示为一组 3D 高斯体,其属性(位置、协方差、颜色、不透明度)由轻量前馈网络预测。不同于 NeRF 风格的体积渲染,splatting 速度快且天然支持增量更新。

  2. Autoregressive Assembly – 对于每一帧新图像,模型预测一批全新的高斯体并将其追加到已有的重建中。这种“在线”组装随帧数线性扩展,避免了基于规范空间方法的全局优化的高昂成本。

  3. Pose Handling Dilemma – 使用真实姿态进行训练可以得到稳定的梯度,但在测试时模型必须依赖自身的姿态预测,导致分布转移。

  4. Render‑and‑Compare (ReCo) Loop

    • 预测的 相机姿态渲染当前的高斯集合。
    • 将渲染图像逐像素与输入观测进行比较。
    • 将残差(差分图像)作为额外的条件信号送回网络,实际上告诉模型“我的姿态估计在这里出错”。
    • 这种反馈稳定了训练,弥合了训练‑测试姿态差距。
  5. Hybrid KV‑Cache Compression – 由于自回归管线会保留不断增长的键值对历史(类似 transformer),内存可能爆炸。作者截断了早期层(捕获低层特征且会变得冗余),并有选择地保留后期层中最具信息量的块,实现了 >90 % 的缓存大小压缩,同时不影响质量。

结果与发现

设置指标(例如 PSNR)相对提升(相较于之前的 SOTA)
已定位 + 内参 (LLFF)31.8 dB+0.9 dB
未定位 + 无内参 (Tanks‑and‑Temples)28.4 dB+1.2 dB
长序列(100+ 帧)30.1 dB+0.7 dB
分布外(synthetic‑to‑real)27.6 dB+1.0 dB
  • ReCo 模块相比仅使用预测姿态的基线,能够将姿态引起的伪影降低约 30 %。
  • 对于 120 帧序列,内存使用从约 2 GB 降至约 180 MB,使得在单个 RTX‑3080 上实现实时推理成为可能。
  • 定性示例显示,即使输入视频包含快速运动或低光照条件,仍能保持清晰的边缘和一致的几何形状。

实际意义

  • AR/VR 流媒体 – 开发者现在可以从手持设备实时流式传输 3D 重建,无需预先校准的相机,实现设备端场景捕获,用于共享混合现实体验。
  • 机器人与 SLAM – 能够摄取未标定视频并实时输出密集、可渲染的模型,简化无人机或在 GPS 信号缺失环境中运行的自动驾驶车辆的映射流水线。
  • 内容创作 – 艺术家可以使用消费级手机捕获场景,立即获得高质量的 3D 资产用于游戏或虚拟制作,省去耗时的摄影测量流程。
  • 边缘部署 – KV‑cache 压缩使该方法在边缘 GPU 甚至高端移动 SoC 上可行,为设备端 3D 重建应用打开大门。

限制与未来工作

  • 动态场景 – ReCoSplat 假设环境是静态的;移动的物体目前会导致重影伪影。将模型扩展以处理动态元素是一个未解决的挑战。
  • 极端姿态误差 – 虽然 ReCo 能缓解中等程度的姿态漂移,但非常大的初始姿态估计误差仍可能使重建不稳定。整合更鲁棒的姿态先验或多视图几何检查可能有所帮助。
  • 超过 200 帧的可扩展性 – 虽然 KV‑cache 压缩在约 150 帧以内有效,但超长序列(例如全天捕获)仍可能触及内存限制;层次化场景划分是一个有前景的方向。

作者计划在后续工作中探索动态场景扩展、与学习式姿态估计器的更紧密集成以及层次化缓存策略。

作者

  • Freeman Cheng
  • Botao Ye
  • Xueting Li
  • Junqi You
  • Fangneng Zhan
  • Ming‑Hsuan Yang

论文信息

  • arXiv ID: 2603.09968v1
  • Categories: cs.CV
  • 出版日期: 2026年3月10日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 尺度空间扩散

Diffusion models 通过噪声降解图像,逆转该过程揭示了跨时间步的信息层次结构。Scale-space theory 展示了类似……