[Paper] StereoSpace：在规范空间中通过端到端扩散实现深度无关的立体几何合成

发布: 1个月前 (2025年12月12日 GMT+8 02:59)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.10959v1

概览

StereoSpace 提出了一种 无深度 的方法，将单张图像转换为完整的立体对。该系统不估计深度图或进行像素扭曲，而是使用仅以目标视点为条件的扩散模型。通过在规范的校正空间中直接“想象”另一只眼的视角，它能够生成清晰的视差并处理透明物体或反射表面等具有挑战性的情况。

视点条件扩散：引入一种扩散生成器，仅以目标相机姿态作为几何线索，消除了显式深度估计或扭曲流水线的需求。
规范校正空间：定义一个共享的、已校正的坐标系，在该空间中左右对应关系被隐式学习，简化了学习任务并提升了一致性。
端到端评估协议：提供了一个公平的测试设置，推理时不允许使用任何真实或代理几何信息，重点关注感知舒适度（iSQoE）和几何一致性（MEt3R）。
领先的性能：在合成和真实数据集上均超越现有的 warp‑&‑inpaint、latent‑warping 和 warped‑conditioning 基线，尤其在分层或非朗伯体场景中表现突出。
可扩展架构：使用单一扩散模型，可一次训练后部署于任何单目转立体任务，无需针对特定场景进行调优。

所有图像首先映射到一个校正的立体帧，其中极线为水平线。这消除了模型学习复杂极线几何的需求。

在标准的去噪扩散概率模型（DDPM）上加入 姿态嵌入，用于编码期望的虚拟相机偏移（例如 “向右平移 6 cm”）。训练时，模型看到左右图像对，并学习从左图的噪声版本加上姿态标记来重建右视图。

不使用显式深度图、扭曲或修补步骤。扩散过程直接填充遮挡区域，同时保持纹理连续性。损失函数将重建项（像素级 L2）与感知项（基于 VGG）相结合，以鼓励生成逼真的纹理。

测试时模型仅接收单目输入和目标视点；不提供深度或代理几何信息。

指标：
- iSQoE（基于图像的立体体验质量）——衡量感知舒适度和视觉伪影。
- MEt3R（平均极线传输误差）——量化生成对中对应点的几何对齐程度。