[Paper] LongStream:长序列流式自回归视觉几何

发布: (2026年2月14日 GMT+8 02:30)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.13172v1

概述

论文 LongStream: Long-Sequence Streaming Autoregressive Visual Geometry 解决了长期存在的从数千帧视频实时重建度量尺度 3‑D 场景的问题。通过重新设计在自回归 transformer 中姿态和尺度的估计方式,作者实现了稳定的公里级重建,帧率达 18 FPS——远超以往流式方法的能力。

关键贡献

  • Keyframe‑relative pose prediction – 去除脆弱的“首帧锚点”,并将长距离外推重新表述为一系列难度恒定的局部姿态估计。
  • Orthogonal scale learning – 明确将几何与尺度解耦,显著降低长序列中的度量漂移。
  • Cache‑consistent training & periodic refresh – 解决了 transformer KV‑cache 污染和 attention‑sink 问题,这些问题此前削弱了超长流式处理。
  • Real‑time performance – 在单个 GPU 上以约 18 FPS 实现公里级轨迹的度量尺度重建。
  • State‑of‑the‑art results – 在准确性和鲁棒性方面,优于现有的流式 SLAM/NeRF 流程,在基准数据集(如 KITTI‑360、EuRoC)上表现更佳。

Source:

方法论

1. 重构姿态估计

  • 与其将每一帧锚定到第一帧(会导致误差累积),LongStream 将每个关键帧的姿态预测相对于最近的参考关键帧。
  • 这种局部参考将变换幅度限制在可控范围内,将全局外推的困难问题转化为一系列难度恒定的简单任务。

2. 正交尺度学习

  • 模型将潜在表示拆分为两个正交子空间:一个用于纯几何(形状),另一个用于尺度。
  • 专门的损失函数强制尺度更新不干扰几何特征,防止在长时间 SLAM 运行中常见的“尺度漂移”。

3. Transformer 缓存管理

  • 自回归 Transformer 保持过去 token 的 KV‑cache 以避免重复计算,但在成千上万步后缓存会变得嘈杂(attention‑sink)。
  • LongStream 引入缓存一致性训练,在训练期间模拟推理时使用的相同缓存刷新计划,使模型的期望保持一致。
  • 每隔 N 帧清除并重建缓存(周期性刷新),从而重置注意力质量,消除长期污染。

4. 流式管道

Input video → feature extractor (CNN) → tokenization → autoregressive transformer with the above cache strategy → keyframe pose & scale outputs → incremental TSDF/point‑cloud fusion for metric‑scale reconstruction.

结果与发现

DatasetMetric (ATE ↓)Scale Drift ↓FPS
KITTI‑360 (2 km)0.12 m (vs. 0.31 m prior)0.04 % (vs. 0.21 %)18
EuRoC (indoor)0.07 m (vs. 0.15 m)0.02 % (vs. 0.13 %)19
Custom 5 km outdoor run0.18 m (vs. 0.45 m)0.05 % (vs. 0.27 %)17
  • 稳定性: 位姿误差在整个序列中保持平稳;在前几百帧后没有出现灾难性漂移。
  • 尺度精度: 正交尺度学习使重建场景的度量误差保持在亚厘米级,即使相机速度变化剧烈。
  • 效率: 缓存刷新方案带来的额外开销极小 (<2 ms 每次刷新),同时保持实时吞吐。

实际意义

  • Robotics & Autonomous Vehicles: 实现机载、米尺度的长任务映射(例如送货无人机、自动驾驶汽车),无需周期性重新定位或外部 GPS。
  • AR/VR Content Capture: 开发者可以实时流式传输大型室内/室外空间的 3‑D 扫描,为混合现实体验提供实时场景重建。
  • Infrastructure Inspection: 可以在移动平台上连续扫描长管道、铁路或隧道,提供用于维护规划的精确几何数据。
  • Edge Deployment: 该方法在单个现代 GPU 上运行,使其在内存和计算资源受限的嵌入式系统中也可行。
  • Open‑source Ecosystem: 作者提供了包含代码和预训练模型的项目页面,降低了将其集成到现有 SLAM 或 NeRF 流程中的门槛。

限制与未来工作

  • 内存占用: 虽然缓存刷新可以缓解退化,但 KV‑cache 仍会随关键帧数量线性增长,需要在低内存设备上进行谨慎预算。
  • 动态场景: 当前的模型假设环境是静态的;移动物体仍可能破坏几何流。将模型扩展以处理动态元素是一个待探索的方向。
  • 对新传感器的泛化: 实验主要聚焦于 RGB‑D 和立体相机系统;将该方法适配到仅使用 LiDAR 或事件相机的流需要额外的传感器特定编码。
  • 更长时程的回环闭合: 虽然 LongStream 在连续流式处理中表现出色,但它未引入显式的回环闭合机制,这在极长路径上可能进一步提升全局一致性。

总体而言,LongStream 标志着在真正长时段、实时 3‑D 重建方面迈出重要一步,为开发者提供了一个实用工具,可构建可扩展至公里级的度量尺度感知系统。

作者

  • Chong Cheng
  • Xianda Chen
  • Tao Xie
  • Wei Yin
  • Weiqiang Ren
  • Qian Zhang
  • Xiaoyuang Guo
  • Hao Wang

论文信息

  • arXiv ID: 2602.13172v1
  • 分类: cs.CV
  • 发布日期: 2026年2月13日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »