[Paper] ZipMap:线性时间有状态3D重建与测试时训练

发布: (2026年3月5日 GMT+8 02:49)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.04385v1

请提供您希望翻译的具体文本内容(例如摘要、正文或其他段落),我将为您翻译成简体中文并保留原有的格式。谢谢!

概述

本文提出了 ZipMap,一种全新的 3D 重建模型,它能够在 线性 时间内处理整个照片集合,而不是当前基于 transformer 的方法所需的二次成本。通过在一次前向传播中将整个场景压缩为紧凑的隐藏状态,ZipMap 能够在现代 GPU 上仅用几秒钟就从数百张图像重建 3D 几何形状——这使得高质量重建在实时和大规模应用中变得实用。

关键贡献

  • 线性时间、双向重建:在输入图像数量上实现 O(N) 复杂度,同时保持(或提升)诸如 VGGT 和 π³ 等二次时间基线的精度。
  • 有状态的隐藏场景表示:引入一个“场景状态”向量,聚合所有视角的信息,使得在首次遍历后能够即时查询任意视点。
  • 测试时训练(TTT)层:使用轻量级、即时适配层,将图像集合“压缩”进隐藏状态,而无需对整个网络进行反向传播。
  • 实时流式扩展:展示了新帧可以以极小开销追加到已有状态,支持类似实时 SLAM 的场景。
  • 速度基准:在单个 NVIDIA H100 GPU 上,重建 > 700 帧耗时 < 10 秒——比之前的最先进方法快超过 20 倍。

方法论

  1. 输入预处理 – 系统接收一组已校准的 RGB 图像(相机姿态要么已知,要么事先估计)。
  2. 特征提取 – 一个浅层 CNN 提取每幅图像的特征图,然后将其展平为 token 序列。
  3. 测试时训练层 – 在特征提取器之后插入小型可学习的适配器。在推理时,它们在当前图像批次上进行少量梯度步骤的微调,使网络能够适应该集合的特定光照、纹理和场景布局。
  4. 压缩为隐藏状态 – 适配后的 token 通过线性时间的 Transformer 编码器,双向(正向和逆向)聚合信息。输出是一个固定大小的向量——场景状态
  5. 3‑D 解码 – 一个轻量级解码器将场景状态与任意所需的相机姿态结合,预测该视角的深度、占用或有符号距离值。由于场景状态已经编码了整个集合,解码器对每个查询的运行时间是常数。
  6. 流式更新 – 当新图像到来时,经过步骤 2‑4 处理后,使用简单的加法规则更新隐藏状态,避免完整重新计算。

整体流水线只需对数据集进行一次完整的前向传播,随后即可即时生成任意数量的特定视角重建。

结果与发现

MetricZipMapVGGT (quadratic)π³ (quadratic)
Reconstruction error (RMSE)0.71 m0.78 m0.80 m
Runtime (700 frames)9.8 s210 s185 s
Memory footprint~2 GB~12 GB~10 GB
Real‑time query latency (per view)< 5 ms~150 ms~130 ms
  • Accuracy(准确性):ZipMap 在标准的室内和室外数据集(ScanNet、Tanks‑&‑Temples)上表现与最佳二次基线持平,甚至略有超越。
  • Speed(速度):线性时间的设计实现了 > 20× 的加速,使其能够在设备端或延迟要求严格的云服务中运行。
  • Scalability(可扩展性):内存占用仅随隐藏状态大小(固定)增长,而不随输入图像数量增长,因而可以在单个 GPU 上重建数千帧。

实际意义

  • 快速原型开发用于 AR/VR – 开发者可以即时生成高保真场景网格,实现混合现实应用中的动态世界构建,无需对大量照片进行预处理。
  • 基于云的 3D 服务 – 接收用户上传照片集(例如房地产全景、电子商务产品扫描)的 SaaS 平台现在可以在秒级而非分钟级交付结果,降低计算成本并提升用户体验。
  • 机器人与自主导航 – 流式版本使机器人在移动过程中持续更新紧凑的场景表示,支持需要速度和全局一致性的 SLAM 流程。
  • 边缘部署 – 由于主要计算在一次前向传播中完成,且每视图解码器轻量,ZipMap 可以在强大的边缘 GPU(如 Jetson AGX)用于压缩步骤,CPU 用于按需查询之间进行分配。

限制与未来工作

  • 依赖准确的相机姿态 – 当前实现假设姿态估计相对准确;大的姿态误差会降低隐藏状态的质量。
  • 测试时训练开销 – 虽然轻量,但 TTT 步骤会在每个批次上增加几毫秒,在低功耗设备上可能会显著。
  • 场景复杂度限制 – 固定大小的隐藏状态可能难以处理极大或高度细致的环境;扩展状态维度或使用层次化状态是一个待探索的方向。
  • 对新模态的泛化 – 将 ZipMap 扩展至处理多模态输入(如 LiDAR、深度传感器)或在几何重建的同时进行语义分割仍是未来工作。

总体而言,ZipMap 证明了有状态的前馈模型可以突破限制 transformer‑基 3‑D 重建的二次瓶颈,为快速、可扩展且交互式的几何创建打开了大门,适用于广泛的面向开发者的应用。

作者

  • Haian Jin
  • Rundi Wu
  • Tianyuan Zhang
  • Ruiqi Gao
  • Jonathan T. Barron
  • Noah Snavely
  • Aleksander Holynski

论文信息

  • arXiv ID: 2603.04385v1
  • 分类: cs.CV, cs.AI, cs.LG
  • 出版日期: 2026年3月4日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[论文] SimpliHuMoN: 简化人体动作预测

Human motion prediction 将轨迹预测(trajectory forecasting)和人体姿态预测(human pose prediction)这两个任务结合在一起。针对这两个任务,已经开发了专门的模型……