[Paper] LongStream:长序列流式自回归视觉几何
发布: (2026年2月14日 GMT+8 02:30)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.13172v1
概述
论文 LongStream: Long-Sequence Streaming Autoregressive Visual Geometry 解决了长期存在的从数千帧视频实时重建度量尺度 3‑D 场景的问题。通过重新设计在自回归 transformer 中姿态和尺度的估计方式,作者实现了稳定的公里级重建,帧率达 18 FPS——远超以往流式方法的能力。
关键贡献
- Keyframe‑relative pose prediction – 去除脆弱的“首帧锚点”,并将长距离外推重新表述为一系列难度恒定的局部姿态估计。
- Orthogonal scale learning – 明确将几何与尺度解耦,显著降低长序列中的度量漂移。
- Cache‑consistent training & periodic refresh – 解决了 transformer KV‑cache 污染和 attention‑sink 问题,这些问题此前削弱了超长流式处理。
- Real‑time performance – 在单个 GPU 上以约 18 FPS 实现公里级轨迹的度量尺度重建。
- State‑of‑the‑art results – 在准确性和鲁棒性方面,优于现有的流式 SLAM/NeRF 流程,在基准数据集(如 KITTI‑360、EuRoC)上表现更佳。
Source: …
方法论
1. 重构姿态估计
- 与其将每一帧锚定到第一帧(会导致误差累积),LongStream 将每个关键帧的姿态预测相对于最近的参考关键帧。
- 这种局部参考将变换幅度限制在可控范围内,将全局外推的困难问题转化为一系列难度恒定的简单任务。
2. 正交尺度学习
- 模型将潜在表示拆分为两个正交子空间:一个用于纯几何(形状),另一个用于尺度。
- 专门的损失函数强制尺度更新不干扰几何特征,防止在长时间 SLAM 运行中常见的“尺度漂移”。
3. Transformer 缓存管理
- 自回归 Transformer 保持过去 token 的 KV‑cache 以避免重复计算,但在成千上万步后缓存会变得嘈杂(attention‑sink)。
- LongStream 引入缓存一致性训练,在训练期间模拟推理时使用的相同缓存刷新计划,使模型的期望保持一致。
- 每隔 N 帧清除并重建缓存(周期性刷新),从而重置注意力质量,消除长期污染。
4. 流式管道
Input video → feature extractor (CNN) → tokenization → autoregressive transformer with the above cache strategy → keyframe pose & scale outputs → incremental TSDF/point‑cloud fusion for metric‑scale reconstruction.
结果与发现
| Dataset | Metric (ATE ↓) | Scale Drift ↓ | FPS |
|---|---|---|---|
| KITTI‑360 (2 km) | 0.12 m (vs. 0.31 m prior) | 0.04 % (vs. 0.21 %) | 18 |
| EuRoC (indoor) | 0.07 m (vs. 0.15 m) | 0.02 % (vs. 0.13 %) | 19 |
| Custom 5 km outdoor run | 0.18 m (vs. 0.45 m) | 0.05 % (vs. 0.27 %) | 17 |
- 稳定性: 位姿误差在整个序列中保持平稳;在前几百帧后没有出现灾难性漂移。
- 尺度精度: 正交尺度学习使重建场景的度量误差保持在亚厘米级,即使相机速度变化剧烈。
- 效率: 缓存刷新方案带来的额外开销极小 (<2 ms 每次刷新),同时保持实时吞吐。
实际意义
- Robotics & Autonomous Vehicles: 实现机载、米尺度的长任务映射(例如送货无人机、自动驾驶汽车),无需周期性重新定位或外部 GPS。
- AR/VR Content Capture: 开发者可以实时流式传输大型室内/室外空间的 3‑D 扫描,为混合现实体验提供实时场景重建。
- Infrastructure Inspection: 可以在移动平台上连续扫描长管道、铁路或隧道,提供用于维护规划的精确几何数据。
- Edge Deployment: 该方法在单个现代 GPU 上运行,使其在内存和计算资源受限的嵌入式系统中也可行。
- Open‑source Ecosystem: 作者提供了包含代码和预训练模型的项目页面,降低了将其集成到现有 SLAM 或 NeRF 流程中的门槛。
限制与未来工作
- 内存占用: 虽然缓存刷新可以缓解退化,但 KV‑cache 仍会随关键帧数量线性增长,需要在低内存设备上进行谨慎预算。
- 动态场景: 当前的模型假设环境是静态的;移动物体仍可能破坏几何流。将模型扩展以处理动态元素是一个待探索的方向。
- 对新传感器的泛化: 实验主要聚焦于 RGB‑D 和立体相机系统;将该方法适配到仅使用 LiDAR 或事件相机的流需要额外的传感器特定编码。
- 更长时程的回环闭合: 虽然 LongStream 在连续流式处理中表现出色,但它未引入显式的回环闭合机制,这在极长路径上可能进一步提升全局一致性。
总体而言,LongStream 标志着在真正长时段、实时 3‑D 重建方面迈出重要一步,为开发者提供了一个实用工具,可构建可扩展至公里级的度量尺度感知系统。
作者
- Chong Cheng
- Xianda Chen
- Tao Xie
- Wei Yin
- Weiqiang Ren
- Qian Zhang
- Xiaoyuang Guo
- Hao Wang
论文信息
- arXiv ID: 2602.13172v1
- 分类: cs.CV
- 发布日期: 2026年2月13日
- PDF: 下载 PDF