[Paper] StereoPilot：通过生成先验学习统一且高效的立体转换

发布: 1个月前 (2025年12月19日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.16915v1

Overview

StereoPilot 解决了 3‑D 内容创作中日益突出的瓶颈：将普通的 2‑D 视频转换为高质量的立体影像。通过引入统一的大规模数据集（UniStereo）以及一种前馈神经网络模型，绕过了繁琐的 “depth‑warp‑inpaint” 流程，作者提供了一种在 VR、AR 和 3‑D 电影制作流水线中既更快又更可靠的解决方案。

关键贡献

UniStereo 数据集 – 首个大规模、格式无关的配对单目‑立体视频片段集合，覆盖平行视图和汇聚视图两种配置，实现方法间的公平基准评估。
StereoPilot 模型 – 单次前向的生成网络，直接预测目标眼视图，无需显式深度估计或迭代扩散，大幅降低延迟。
可学习的域切换器 – 轻量模块，在推理时自动将同一骨干网络适配到不同的立体格式（平行视图 vs. 汇聚视图）。
循环一致性训练 – 新颖的损失函数，强制生成的左/右视图与原始单帧之间保持一致性，提升时间稳定性并减少伪影。
领先的性能 – 实验结果表明，StereoPilot 在视觉质量上优于现有基于深度和基于扩散的方法，同时速度提升最高可达 10 倍。

方法论

数据集构建 (UniStereo)
- 收集了数千个来自现有 3‑D 电影、VR 捕获和合成来源的高分辨率视频片段。
- 对每个片段，生成了平行视（两个摄像头并排）和会聚视（toe‑in）立体对，提供跨格式的统一基准。
模型架构
- 主干网络：一种 transformer‑style 编码器‑解码器，接受单帧单目图像并学习场景几何和纹理的潜在表示。
- 域切换器：一个小型可训练的门控网络，根据 one‑hot 立体格式标志调节解码器权重，使同一主干能够输出平行或会聚的结果。
- 输出头：直接预测右眼图像（或左眼，取决于标志），一次前向传播完成；不生成或使用深度图。
训练目标
- 重建损失（L1 + 感知损失）用于生成的立体视图。
- 循环一致性损失：将生成的视图使用可微分的扭曲算子重新投影回原始单目帧，促进几何合理性。
- 对抗损失（可选）用于提升细节锐度。
推理
- 给定单目帧和所需的立体格式标志，模型即可即时输出配对视图，便于与原始帧实时拼接。

结果与发现

指标	StereoPilot	Depth‑Warp‑Inpaint (DWI)	Diffusion‑Based (e.g., Stable‑Stereo)
PSNR (dB)	31.8	28.4	29.1
SSIM	0.94	0.88	0.90
推理时间 (1080p)	45 ms	480 ms	1.2 s
时间抖动 (T‑score)	0.12	0.35	0.28

视觉保真度：StereoPilot 保留细腻纹理（头发、树叶），并降低深度边缘处的重影，这是 DWI 流水线常见的失效模式。
速度：前馈设计消除了迭代扩散步骤，使其适用于实时应用（在单个 RTX 4090 上约 22 fps）。
格式鲁棒性：同一模型在并行立体和收敛立体上均获得相近的分数，验证了域切换器的有效性。

实际影响

VR/AR 内容流水线：工作室现在可以实时生成立体预览，减少手动双摄拍摄的时间和成本。
实时广播：实时单声道转立体声转换使体育或音乐会的 3D 直播成为可能，无需专用 3D 设备。
游戏引擎与仿真：开发者可以将 StereoPilot 作为后处理效果集成，为现有 2D 资源提供可选的 3D 模式，提升头显用户的可访问性。
边缘部署：轻量级推理（约每帧 45 毫秒）可在高端移动 GPU 上运行，为在智能手机和 AR 眼镜上进行设备端 3D 视频创作提供可能。

限制与未来工作

深度歧义：虽然模型避免了显式的深度图，但在极端视差或透明表面等几何本质上模糊的情况下仍可能出现困难。
训练数据偏差：UniStereo 虽然规模庞大，但主要由专业拍摄的素材构成；在低光或高度压缩的用户生成视频上的表现可能会下降。
时间一致性：尽管循环损失（cycle loss）降低了闪烁，但长时间范围的时间连贯性（例如跨越数分钟的视频）仍是一个未解决的挑战。
未来方向：作者提出的建议包括引入自监督深度线索以进一步提升几何精度、扩展数据集以覆盖更丰富的拍摄条件，以及探索多帧递归架构以实现更平滑的视频输出。

作者

Guibao Shen
Yihua Du
Wenhang Ge
Jing He
Chirui Chang
Donghao Zhou
Zhen Yang
Luozhou Wang
Xin Tao
Ying‑Cong Chen

论文信息

arXiv ID: 2512.16915v1
类别: cs.CV
出版时间: 2025年12月18日
PDF: 下载 PDF

[Paper] StereoPilot：通过生成先验学习统一且高效的立体转换

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 语义与重建同等重要：让表示编码器准备好用于文本到图像生成与编辑

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 灵巧的世界模型

[Paper] 开放基础模型中视觉的对抗鲁棒性