[Paper] Flow3r：分解流预测用于可扩展的视觉几何学习

发布: 3天前 (2026年2月24日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.20157v1

Overview

本文介绍了 Flow3r，这是一种新框架，能够让计算机从普通的未标记视频中推断 3D 形状和相机运动。通过利用密集的二维像素对应（光流）作为监督信号，Flow3r 避免了对昂贵的真实深度或姿态标注的需求，使得即使在动态的真实场景中也能实现大规模学习。

Factored flow prediction: 一种新颖的设计，将光流估计拆分为 geometry 潜在向量（来自源帧）和 pose 潜在向量（来自目标帧），迫使网络同时学习场景结构和相机运动。
Scalable unsupervised training: 证明了可以使用现成估计器轻松获取的稠密光流来替代昂贵的 3‑D 监督，从而在约 80 万未标记视频上进行训练。
Unified handling of static and dynamic scenes: 这种因子化自然扩展到运动物体，使同一模型能够重建刚性背景和非刚性前景。
State‑of‑the‑art performance: 在包括 KITTI、ScanNet 以及野外 YouTube 视频在内的八个基准上取得领先成绩，尤其在标注资源稀缺的动态野外数据上提升最大。
Plug‑and‑play compatibility: 因子化光流模块可以直接嵌入现有的视觉几何流水线（如基于 NeRF 或深度预测的网络），在无需重新设计整个系统的情况下提升其精度。

Source: …

输入与预处理
- 单目视频片段逐帧输入。
- 传统光流估计器（例如 RAFT）提供相邻帧之间的密集 2‑D 对应关系；这些光流作为软监督。
潜在因子分解
- 网络将源图像编码为 几何潜在向量，捕获场景深度、表面法线以及任何静态结构。
- 目标图像被编码为 姿态潜在向量，表示相对相机运动（可选地还包括物体运动）。
光流预测头
- 将两个潜在向量在轻量级解码器中结合，预测从源到目标的光流。
- 损失仅为预测光流与预先计算光流之间的 L1 距离，促使几何潜在向量与观测到的运动保持一致。
训练循环
- 模型在数百万帧对上端到端训练，交替进行几何聚焦更新（例如深度回归）和姿态聚焦更新（例如相机姿态回归）。
- 不需要真实深度、姿态或分割标签；光流损失驱动两个组件的学习。
动态扩展
- 对于运动物体，可以在前景的几何潜在向量上附加额外的 运动潜在向量，使光流解码器能够解释非刚性运动，而不破坏因子分解原则。

基准	指标（越低越好）	Flow3r（本工作）	先前最佳
KITTI Depth	Abs Rel	0.082	0.098
ScanNet Pose	ATE (m)	0.041	0.057
YouTube‑Dynamic (in‑the‑wild)	F‑score	0.71	0.58
DynamicObjects‑3D	IoU	0.63	0.51