[Paper] ReCoSplat：使用渲染对比的自回归前馈高斯点绘

发布: 13小时前 (2026年3月11日 GMT+8 01:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.09968v1

Overview

ReCoSplat 是一种用于 在线新视角合成 的全新前馈模型，能够处理有或没有已知相机姿态或内参的视频流。通过将自回归高斯‑splatting 主干与巧妙的 “render‑and‑compare” 反馈回路相结合，即使在其依赖的姿态估计噪声较大时，系统也能保持稳定——这在真实世界的 AR/VR 流程中是常见问题。

关键贡献

自回归高斯点绘（Autoregressive Gaussian Splatting）用于未标定输入 – 可直接使用原始视频帧，实时估计相机姿态。
渲染并比较（Render‑and‑Compare，ReCo）模块 – 从预测视点渲染当前场景，与输入帧进行比较，并使用残差作为条件信号，在推理期间校正姿态漂移。
混合 KV‑缓存压缩 – 两阶段内存节省方案（早期层截断 + 块级选择性保留），在超过 100 帧的序列中将 transformer 风格的键值缓存削减 >90 %。
在分布内（如 LLFF、Tanks‑and‑Temples）和分布外基准上实现 最新水平 的结果，覆盖四种输入配置（有/无姿态，有/无内参）。
开源发布 代码和预训练模型，促进快速采用。

方法论

Gaussian Splatting Backbone – 场景被表示为一组 3D 高斯体，其属性（位置、协方差、颜色、不透明度）由轻量前馈网络预测。不同于 NeRF 风格的体积渲染，splatting 速度快且天然支持增量更新。
Autoregressive Assembly – 对于每一帧新图像，模型预测一批全新的高斯体并将其追加到已有的重建中。这种“在线”组装随帧数线性扩展，避免了基于规范空间方法的全局优化的高昂成本。
Pose Handling Dilemma – 使用真实姿态进行训练可以得到稳定的梯度，但在测试时模型必须依赖自身的姿态预测，导致分布转移。
Render‑and‑Compare (ReCo) Loop
- 从 预测的 相机姿态渲染当前的高斯集合。
- 将渲染图像逐像素与输入观测进行比较。
- 将残差（差分图像）作为额外的条件信号送回网络，实际上告诉模型“我的姿态估计在这里出错”。
- 这种反馈稳定了训练，弥合了训练‑测试姿态差距。
Hybrid KV‑Cache Compression – 由于自回归管线会保留不断增长的键值对历史（类似 transformer），内存可能爆炸。作者截断了早期层（捕获低层特征且会变得冗余），并有选择地保留后期层中最具信息量的块，实现了 >90 % 的缓存大小压缩，同时不影响质量。

结果与发现

设置	指标（例如 PSNR）	相对提升（相较于之前的 SOTA）
已定位 + 内参 (LLFF)	31.8 dB	+0.9 dB
未定位 + 无内参 (Tanks‑and‑Temples)	28.4 dB	+1.2 dB
长序列（100+ 帧）	30.1 dB	+0.7 dB
分布外（synthetic‑to‑real）	27.6 dB	+1.0 dB

ReCo 模块相比仅使用预测姿态的基线，能够将姿态引起的伪影降低约 30 %。
对于 120 帧序列，内存使用从约 2 GB 降至约 180 MB，使得在单个 RTX‑3080 上实现实时推理成为可能。
定性示例显示，即使输入视频包含快速运动或低光照条件，仍能保持清晰的边缘和一致的几何形状。

实际意义

AR/VR 流媒体 – 开发者现在可以从手持设备实时流式传输 3D 重建，无需预先校准的相机，实现设备端场景捕获，用于共享混合现实体验。
机器人与 SLAM – 能够摄取未标定视频并实时输出密集、可渲染的模型，简化无人机或在 GPS 信号缺失环境中运行的自动驾驶车辆的映射流水线。
内容创作 – 艺术家可以使用消费级手机捕获场景，立即获得高质量的 3D 资产用于游戏或虚拟制作，省去耗时的摄影测量流程。
边缘部署 – KV‑cache 压缩使该方法在边缘 GPU 甚至高端移动 SoC 上可行，为设备端 3D 重建应用打开大门。

限制与未来工作

动态场景 – ReCoSplat 假设环境是静态的；移动的物体目前会导致重影伪影。将模型扩展以处理动态元素是一个未解决的挑战。
极端姿态误差 – 虽然 ReCo 能缓解中等程度的姿态漂移，但非常大的初始姿态估计误差仍可能使重建不稳定。整合更鲁棒的姿态先验或多视图几何检查可能有所帮助。
超过 200 帧的可扩展性 – 虽然 KV‑cache 压缩在约 150 帧以内有效，但超长序列（例如全天捕获）仍可能触及内存限制；层次化场景划分是一个有前景的方向。

作者计划在后续工作中探索动态场景扩展、与学习式姿态估计器的更紧密集成以及层次化缓存策略。

作者

Freeman Cheng
Botao Ye
Xueting Li
Junqi You
Fangneng Zhan
Ming‑Hsuan Yang

论文信息

arXiv ID: 2603.09968v1
Categories: cs.CV
出版日期: 2026年3月10日
PDF: 下载 PDF

[Paper] ReCoSplat：使用渲染对比的自回归前馈高斯点绘

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

利用全切片难度的多实例学习提升前列腺癌分级

[论文] 无图像，无问题：端到端多任务心脏分析来自欠采样 k‑Space

[Paper] 使用 Target-Only Margin Disparity Discrepancy 的无监督领域适应

[Paper] 尺度空间扩散