[Paper] Flow3r:分解流预测用于可扩展的视觉几何学习
发布: (2026年2月24日 GMT+8 02:59)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.20157v1
Overview
本文介绍了 Flow3r,这是一种新框架,能够让计算机从普通的未标记视频中推断 3D 形状和相机运动。通过利用密集的二维像素对应(光流)作为监督信号,Flow3r 避免了对昂贵的真实深度或姿态标注的需求,使得即使在动态的真实场景中也能实现大规模学习。
关键贡献
- Factored flow prediction: 一种新颖的设计,将光流估计拆分为 geometry 潜在向量(来自源帧)和 pose 潜在向量(来自目标帧),迫使网络同时学习场景结构和相机运动。
- Scalable unsupervised training: 证明了可以使用现成估计器轻松获取的稠密光流来替代昂贵的 3‑D 监督,从而在约 80 万未标记视频上进行训练。
- Unified handling of static and dynamic scenes: 这种因子化自然扩展到运动物体,使同一模型能够重建刚性背景和非刚性前景。
- State‑of‑the‑art performance: 在包括 KITTI、ScanNet 以及野外 YouTube 视频在内的八个基准上取得领先成绩,尤其在标注资源稀缺的动态野外数据上提升最大。
- Plug‑and‑play compatibility: 因子化光流模块可以直接嵌入现有的视觉几何流水线(如基于 NeRF 或深度预测的网络),在无需重新设计整个系统的情况下提升其精度。
Source: …
方法论
-
输入与预处理
- 单目视频片段逐帧输入。
- 传统光流估计器(例如 RAFT)提供相邻帧之间的密集 2‑D 对应关系;这些光流作为 软 监督。
-
潜在因子分解
- 网络将 源 图像编码为 几何潜在向量,捕获场景深度、表面法线以及任何静态结构。
- 目标 图像被编码为 姿态潜在向量,表示相对相机运动(可选地还包括物体运动)。
-
光流预测头
- 将两个潜在向量在轻量级解码器中结合,预测从源到目标的光流。
- 损失仅为预测光流与预先计算光流之间的 L1 距离,促使几何潜在向量与观测到的运动保持一致。
-
训练循环
- 模型在数百万帧对上端到端训练,交替进行几何聚焦更新(例如深度回归)和姿态聚焦更新(例如相机姿态回归)。
- 不需要真实深度、姿态或分割标签;光流损失驱动两个组件的学习。
-
动态扩展
- 对于运动物体,可以在前景的几何潜在向量上附加额外的 运动潜在向量,使光流解码器能够解释非刚性运动,而不破坏因子分解原则。
结果与发现
| 基准 | 指标(越低越好) | Flow3r(本工作) | 先前最佳 |
|---|---|---|---|
| KITTI Depth | Abs Rel | 0.082 | 0.098 |
| ScanNet Pose | ATE (m) | 0.041 | 0.057 |
| YouTube‑Dynamic (in‑the‑wild) | F‑score | 0.71 | 0.58 |
| DynamicObjects‑3D | IoU | 0.63 | 0.51 |
- 分解流优于其他方法:消融研究表明,单一的整体流预测器(单一潜变量)在所有数据集上比分解版本慢约 8–12 %。
- 数据规模有效:性能随未标记视频量的增加大致呈对数增长,证实该方法受益于海量网络规模数据。
- 动态场景:在包含移动人物或车辆的视频中,Flow3r 相较于次佳方法有更大的优势(相对提升最高达 20 %),凸显姿态‑几何拆分的优势。
实际意义
- 降低标注成本:公司现在可以在现有的视频库(例如行车记录仪 footage、用户生成内容)上训练 3‑D 重建模型,而无需手动深度或姿态标注。
- 改进 AR/VR 流程:AR 头显的实时场景理解可以从单目视频流启动,实现动态室内/室外环境中的设备端映射。
- 机器人与自动驾驶:机器人可以从自身的摄像头日志中学习推断深度和自运动,持续提升感知能力,而无需昂贵的激光雷达扫描。
- 内容创作工具:3‑D 艺术家可以从任意视频片段生成粗糙几何体,加速游戏或视觉特效的资产制作。
- 插件升级路径:现有的 NeRF 或深度预测框架可以采用分解流头,以最小的工程工作量提升精度。
限制与未来工作
- 依赖光流质量:该方法继承了上游光流估计器的误差;极快的运动或低纹理区域仍可能产生噪声监督。
- 对遮挡的隐式处理:虽然因式分解有帮助,但遮挡像素被视为异常值而非显式建模,这限制了在高度遮挡场景中的性能。
- 姿态潜变量的可扩展性:对于非常长的视频序列,姿态潜变量可能需要时间平滑或循环结构以避免漂移。
- 作者提出的未来方向 包括:集成自监督光流细化、将因式分解扩展到多对象运动图以及探索光流估计器与几何网络的联合训练以实现端到端的最优性。
作者
- Zhongxiao Cong
- Qitao Zhao
- Minsik Jeon
- Shubham Tulsiani
论文信息
- arXiv ID: 2602.20157v1
- 分类: cs.CV
- 出版时间: 2026年2月23日
- PDF: 下载 PDF