[Paper] StereoSpace:在规范空间中通过端到端扩散实现深度无关的立体几何合成
发布: (2025年12月12日 GMT+8 02:59)
6 min read
原文: arXiv
Source: arXiv - 2512.10959v1
概览
StereoSpace 提出了一种 无深度 的方法,将单张图像转换为完整的立体对。该系统不估计深度图或进行像素扭曲,而是使用仅以目标视点为条件的扩散模型。通过在规范的校正空间中直接“想象”另一只眼的视角,它能够生成清晰的视差并处理透明物体或反射表面等具有挑战性的情况。
主要贡献
- 视点条件扩散:引入一种扩散生成器,仅以目标相机姿态作为几何线索,消除了显式深度估计或扭曲流水线的需求。
- 规范校正空间:定义一个共享的、已校正的坐标系,在该空间中左右对应关系被隐式学习,简化了学习任务并提升了一致性。
- 端到端评估协议:提供了一个公平的测试设置,推理时不允许使用任何真实或代理几何信息,重点关注感知舒适度(iSQoE)和几何一致性(MEt3R)。
- 领先的性能:在合成和真实数据集上均超越现有的 warp‑&‑inpaint、latent‑warping 和 warped‑conditioning 基线,尤其在分层或非朗伯体场景中表现突出。
- 可扩展架构:使用单一扩散模型,可一次训练后部署于任何单目转立体任务,无需针对特定场景进行调优。
方法论
规范校正空间
所有图像首先映射到一个校正的立体帧,其中极线为水平线。这消除了模型学习复杂极线几何的需求。
带视点条件的扩散生成器
在标准的去噪扩散概率模型(DDPM)上加入 姿态嵌入,用于编码期望的虚拟相机偏移(例如 “向右平移 6 cm”)。训练时,模型看到左右图像对,并学习从左图的噪声版本加上姿态标记来重建右视图。
端到端合成
不使用显式深度图、扭曲或修补步骤。扩散过程直接填充遮挡区域,同时保持纹理连续性。损失函数将重建项(像素级 L2)与感知项(基于 VGG)相结合,以鼓励生成逼真的纹理。
评估协议
测试时模型仅接收单目输入和目标视点;不提供深度或代理几何信息。
- 指标:
- iSQoE(基于图像的立体体验质量)——衡量感知舒适度和视觉伪影。
- MEt3R(平均极线传输误差)——量化生成对中对应点的几何对齐程度。
结果与发现
| 方法类别 | iSQoE(数值越高越好) | MEt3R(数值越低越好) |
|---|---|---|
| Warp & Inpaint | 0.71 | 4.9 px |
| Latent‑Warping | 0.78 | 3.8 px |
| Warped‑Conditioning | 0.82 | 3.2 px |
| StereoSpace(本文提出) | 0.89 | 2.1 px |
- 锐利视差:即使在较大基线位移下,生成的立体对也呈现出清晰的视差。
- 对复杂材质的鲁棒性:透明层、镜面高光和半透明植被均能得到处理,避免了基于深度的扭曲常见的重影问题。
- 泛化能力:在混合合成/真实数据集上训练的同一模型,可直接用于未见过的室内和室外场景,无需微调。
实际意义
- VR/AR 内容创作:开发者可以即时将单张照片或渲染帧转换为立体资产,降低对双摄像头装置或昂贵深度传感器的依赖。
- 3D 媒体流水线:后期制作工具能够自动为传统 2D 素材生成左右眼视图,快速转化为 3D 电影或 360° 视频格式。
- 机器人与自主系统:需要真实立体输入进行感知测试的仿真环境,可使用 StereoSpace 合成深度一致的视图,而无需维护完整的 3D 环境模型。
- 边缘部署:由于消除了繁重的深度估计模块,单个扩散模型(≈ 1 GB)即可在现代 GPU 上运行,甚至可在移动 NPU 上加速,实现设备端立体生成。
局限性与未来工作
- 计算成本:扩散推理仍需多次去噪步骤(≈ 50–100),对实时应用构成瓶颈。
- 基线范围:极宽基线(> 10 cm)会导致质量下降,因为模型在训练时未见过如此大的视差。
- 训练数据偏差:模型会继承训练集中的偏差(例如室内场景占比过高)。
- 未来方向:作者建议探索加速采样技术(如 DDIM、无分类器引导),将条件扩展到动态场景(视频扩散),以及引入学习的先验以更好地处理极端基线。
作者
- Tjark Behrens
- Anton Obukhov
- Bingxin Ke
- Fabio Tosi
- Matteo Poggi
- Konrad Schindler
论文信息
- arXiv ID: 2512.10959v1
- 分类: cs.CV
- 发布日期: 2025 年 12 月 11 日
- PDF: Download PDF