[Paper] LoGeR:长上下文几何重建与混合记忆

发布: (2026年3月4日 GMT+8 02:55)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.03269v1

概述

本文介绍了 LoGeR,一种新架构,使得在时长为数分钟、包含数千帧的视频流上进行密集的三维重建成为可能,而无需当前方法依赖的繁重后处理管线。通过将巧妙的块级处理策略与混合内存系统相结合,LoGeR 保持全局一致性(没有尺度漂移或块错位),同时仍能提供开发者在 AR、机器人和视觉‑SLAM 应用中所需的细粒度细节。

关键贡献

  • Chunk‑wise feedforward pipeline 将重建规模从常规的 10‑20 帧扩展到数万帧,消除全序列注意力的二次时间瓶颈。
  • Hybrid memory module
    • Parametric Test‑Time Training (TTT) memory 在运行时学习全局坐标锚点,防止跨块的尺度漂移。
    • Non‑parametric Sliding Window Attention (SWA) 保留未压缩的局部上下文,实现相邻块之间的精确对齐。
  • Training efficiency:模型仅在 128‑帧的适度序列上训练,却能在推理时推广到 19k‑帧视频。
  • State‑of‑the‑art results 在标准基准(如 KITTI)和新整理的 VBR 数据集上取得领先表现,绝对轨迹误差 (ATE) 相比之前的前馈方法降低 > 74 %。
  • No post‑hoc optimization:重建直接由网络的前向传播产生,简化部署流水线。

方法论

  1. Chunking the video – 将输入视频划分为重叠的窗口(例如,每段 128 帧)。在每个块内部,使用标准的基于 Transformer 的几何基础模型执行密集深度和姿态估计,受益于双向上下文。

  2. Hybrid memory integration

    • TTT memory:在推理阶段,对一组轻量的可学习参数在当前视频上进行微调,以锁定全局尺度和方向。此过程只需少量梯度步骤,因而足够快,可用于实时或近实时场景。
    • SWA:滑动窗口注意力缓冲区存储最近帧的原始特征 token。当切换到下一个块时,缓冲区提供相邻帧的“未压缩”视图,使网络能够将新块精确对齐到前一个块。
  3. Global stitching – 每个块处理完毕后,TTT memory 提供全局变换,将该块的局部重建映射到共享的世界坐标系。SWA 确保块之间的接缝平滑,避免抖动或不连续。

  4. Training regime – 模型在 128 帧序列上端到端训练,使用标准的光度和几何损失。TTT memory 参与训练;它仅在测试时激活,这正是网络学习对后期注入的记忆保持鲁棒性的原因。

Source:

结果与发现

数据集帧数(最大)与先前前馈模型的 ATE 降低定性观察
KITTI~200降低 74 %缩放始终正确,整个轨迹无漂移
VBR(新)最多 19 k平均降低约 70 %在分钟级视频中生成平滑、全局一致的点云
Synthetic(消融实验)128‑512添加 TTT 记忆后提升 30‑40 %;添加 SWA 后提升 15 %每个记忆组件都带来互补的增益
  • 可扩展性:推理时间随视频长度线性增长(得益于分块处理),而全注意力基线则呈二次增长。
  • 内存占用:滑动窗口缓冲区仅保留最近约 32 帧,即使是 19k 帧的视频也能保持 GPU 内存使用适中。
  • 鲁棒性:TTT 记忆消除了增量 SLAM 流水线中常见的尺度漂移,即使在视频出现快速运动或低纹理区域时亦如此。

实际意义

  • AR/VR 内容创作 – 开发者可以直接将长时间的捕获会话(例如,10 分钟的房间扫描)输入 LoGeR,获得可直接使用的稠密网格,无需额外的束束调整步骤。
  • 机器人与自主导航 – 实时 SLAM 系统可以将混合记忆作为即插即用模块,以在长时间任务中保持全局一致性,同时保持低延迟。
  • 3D 制图服务 – 处理街景或航空视频的云管线可以扩展到城市街区的长度,而不会导致计算成本激增,从而实现更快的地图更新。
  • 工具链 – 由于 LoGeR 完全前馈,它可以很好地与现有深度学习框架(PyTorch、TensorFlow)集成,并可导出为 ONNX 或 TensorRT 用于边缘部署。
  • 开发者体验 – 无需调节束束调整超参数或管理大型姿态图;网络会自动处理全局对齐。

限制与未来工作

  • 测试时训练开销 – 虽然轻量,但 TTT 记忆仍然需要对每段视频进行几次梯度更新,这在超低功耗设备上可能成为瓶颈。
  • 块大小敏感性 – 非常短的块会降低块内推理质量;非常长的块又会重新带来内存压力。自适应块划分策略仍是未解之题。
  • 动态场景 – 当前的公式假设环境基本静止;移动物体仍可能导致局部重建误差。将记忆扩展以建模动态元素是一个有前景的方向。
  • 基准多样性 – 评估主要集中在驾驶和室内捕获数据集;在航空、水下或手持消费视频上的测试将进一步验证其通用性。

总体而言,LoGeR 推动了长期密集重建的前沿,提供了一个实用、开发者友好的方案,弥合了高质量 3D 感知与真实世界可扩展性之间的差距。

作者

  • Junyi Zhang
  • Charles Herrmann
  • Junhwa Hur
  • Chen Sun
  • Ming-Hsuan Yang
  • Forrester Cole
  • Trevor Darrell
  • Deqing Sun

论文信息

  • arXiv ID: 2603.03269v1
  • 分类: cs.CV, cs.LG
  • 发表时间: 2026年3月3日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[论文] SimpliHuMoN: 简化人体动作预测

Human motion prediction 将轨迹预测(trajectory forecasting)和人体姿态预测(human pose prediction)这两个任务结合在一起。针对这两个任务,已经开发了专门的模型……