[Paper] LongStream：长序列流式自回归视觉几何

发布: 3天前 (2026年2月14日 GMT+8 02:30)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.13172v1

概述

论文 LongStream: Long-Sequence Streaming Autoregressive Visual Geometry 解决了长期存在的从数千帧视频实时重建度量尺度 3‑D 场景的问题。通过重新设计在自回归 transformer 中姿态和尺度的估计方式，作者实现了稳定的公里级重建，帧率达 18 FPS——远超以往流式方法的能力。

关键贡献

Keyframe‑relative pose prediction – 去除脆弱的“首帧锚点”，并将长距离外推重新表述为一系列难度恒定的局部姿态估计。
Orthogonal scale learning – 明确将几何与尺度解耦，显著降低长序列中的度量漂移。
Cache‑consistent training & periodic refresh – 解决了 transformer KV‑cache 污染和 attention‑sink 问题，这些问题此前削弱了超长流式处理。
Real‑time performance – 在单个 GPU 上以约 18 FPS 实现公里级轨迹的度量尺度重建。
State‑of‑the‑art results – 在准确性和鲁棒性方面，优于现有的流式 SLAM/NeRF 流程，在基准数据集（如 KITTI‑360、EuRoC）上表现更佳。

Source: …

方法论

1. 重构姿态估计

与其将每一帧锚定到第一帧（会导致误差累积），LongStream 将每个关键帧的姿态预测相对于最近的参考关键帧。
这种局部参考将变换幅度限制在可控范围内，将全局外推的困难问题转化为一系列难度恒定的简单任务。

2. 正交尺度学习

模型将潜在表示拆分为两个正交子空间：一个用于纯几何（形状），另一个用于尺度。
专门的损失函数强制尺度更新不干扰几何特征，防止在长时间 SLAM 运行中常见的“尺度漂移”。

3. Transformer 缓存管理

自回归 Transformer 保持过去 token 的 KV‑cache 以避免重复计算，但在成千上万步后缓存会变得嘈杂（attention‑sink）。
LongStream 引入缓存一致性训练，在训练期间模拟推理时使用的相同缓存刷新计划，使模型的期望保持一致。
每隔 N 帧清除并重建缓存（周期性刷新），从而重置注意力质量，消除长期污染。

4. 流式管道

Input video → feature extractor (CNN) → tokenization → autoregressive transformer with the above cache strategy → keyframe pose & scale outputs → incremental TSDF/point‑cloud fusion for metric‑scale reconstruction.

结果与发现

Dataset	Metric (ATE ↓)	Scale Drift ↓	FPS
KITTI‑360 (2 km)	0.12 m (vs. 0.31 m prior)	0.04 % (vs. 0.21 %)	18
EuRoC (indoor)	0.07 m (vs. 0.15 m)	0.02 % (vs. 0.13 %)	19
Custom 5 km outdoor run	0.18 m (vs. 0.45 m)	0.05 % (vs. 0.27 %)	17

稳定性: 位姿误差在整个序列中保持平稳；在前几百帧后没有出现灾难性漂移。
尺度精度: 正交尺度学习使重建场景的度量误差保持在亚厘米级，即使相机速度变化剧烈。
效率: 缓存刷新方案带来的额外开销极小 (<2 ms 每次刷新)，同时保持实时吞吐。

实际意义

Robotics & Autonomous Vehicles: 实现机载、米尺度的长任务映射（例如送货无人机、自动驾驶汽车），无需周期性重新定位或外部 GPS。
AR/VR Content Capture: 开发者可以实时流式传输大型室内/室外空间的 3‑D 扫描，为混合现实体验提供实时场景重建。
Infrastructure Inspection: 可以在移动平台上连续扫描长管道、铁路或隧道，提供用于维护规划的精确几何数据。
Edge Deployment: 该方法在单个现代 GPU 上运行，使其在内存和计算资源受限的嵌入式系统中也可行。
Open‑source Ecosystem: 作者提供了包含代码和预训练模型的项目页面，降低了将其集成到现有 SLAM 或 NeRF 流程中的门槛。

限制与未来工作

内存占用： 虽然缓存刷新可以缓解退化，但 KV‑cache 仍会随关键帧数量线性增长，需要在低内存设备上进行谨慎预算。
动态场景： 当前的模型假设环境是静态的；移动物体仍可能破坏几何流。将模型扩展以处理动态元素是一个待探索的方向。
对新传感器的泛化： 实验主要聚焦于 RGB‑D 和立体相机系统；将该方法适配到仅使用 LiDAR 或事件相机的流需要额外的传感器特定编码。
更长时程的回环闭合： 虽然 LongStream 在连续流式处理中表现出色，但它未引入显式的回环闭合机制，这在极长路径上可能进一步提升全局一致性。

总体而言，LongStream 标志着在真正长时段、实时 3‑D 重建方面迈出重要一步，为开发者提供了一个实用工具，可构建可扩展至公里级的度量尺度感知系统。

作者

Chong Cheng
Xianda Chen
Tao Xie
Wei Yin
Weiqiang Ren
Qian Zhang
Xiaoyuang Guo
Hao Wang

论文信息

arXiv ID: 2602.13172v1
分类: cs.CV
发布日期: 2026年2月13日
PDF: 下载 PDF

[Paper] LongStream：长序列流式自回归视觉几何

概述

关键贡献

方法论

1. 重构姿态估计

2. 正交尺度学习

3. Transformer 缓存管理

4. 流式管道

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 模仿有效方法：Simulation-Filtered Modular Policy Learning 来自人类视频

[Paper] CoPE-VideoLM：用于高效视频语言模型的 Codec 原语

[Paper] FlexAM: 灵活的外观-运动分解用于多功能视频生成控制

[Paper] 单目无标记动作捕捉实现上肢可达工作空间的定量评估