[Paper] ZipMap：线性时间有状态3D重建与测试时训练

发布: 1天前 (2026年3月5日 GMT+8 02:49)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.04385v1

请提供您希望翻译的具体文本内容（例如摘要、正文或其他段落），我将为您翻译成简体中文并保留原有的格式。谢谢！

概述

本文提出了 ZipMap，一种全新的 3D 重建模型，它能够在线性时间内处理整个照片集合，而不是当前基于 transformer 的方法所需的二次成本。通过在一次前向传播中将整个场景压缩为紧凑的隐藏状态，ZipMap 能够在现代 GPU 上仅用几秒钟就从数百张图像重建 3D 几何形状——这使得高质量重建在实时和大规模应用中变得实用。

关键贡献

线性时间、双向重建：在输入图像数量上实现 O(N) 复杂度，同时保持（或提升）诸如 VGGT 和 π³ 等二次时间基线的精度。
有状态的隐藏场景表示：引入一个“场景状态”向量，聚合所有视角的信息，使得在首次遍历后能够即时查询任意视点。
测试时训练（TTT）层：使用轻量级、即时适配层，将图像集合“压缩”进隐藏状态，而无需对整个网络进行反向传播。
实时流式扩展：展示了新帧可以以极小开销追加到已有状态，支持类似实时 SLAM 的场景。
速度基准：在单个 NVIDIA H100 GPU 上，重建 > 700 帧耗时 < 10 秒——比之前的最先进方法快超过 20 倍。

方法论

输入预处理 – 系统接收一组已校准的 RGB 图像（相机姿态要么已知，要么事先估计）。
特征提取 – 一个浅层 CNN 提取每幅图像的特征图，然后将其展平为 token 序列。
测试时训练层 – 在特征提取器之后插入小型可学习的适配器。在推理时，它们在当前图像批次上进行少量梯度步骤的微调，使网络能够适应该集合的特定光照、纹理和场景布局。
压缩为隐藏状态 – 适配后的 token 通过线性时间的 Transformer 编码器，双向（正向和逆向）聚合信息。输出是一个固定大小的向量——场景状态。
3‑D 解码 – 一个轻量级解码器将场景状态与任意所需的相机姿态结合，预测该视角的深度、占用或有符号距离值。由于场景状态已经编码了整个集合，解码器对每个查询的运行时间是常数。
流式更新 – 当新图像到来时，经过步骤 2‑4 处理后，使用简单的加法规则更新隐藏状态，避免完整重新计算。

整体流水线只需对数据集进行一次完整的前向传播，随后即可即时生成任意数量的特定视角重建。

结果与发现

Metric	ZipMap	VGGT (quadratic)	π³ (quadratic)
Reconstruction error (RMSE)	0.71 m	0.78 m	0.80 m
Runtime (700 frames)	9.8 s	210 s	185 s
Memory footprint	~2 GB	~12 GB	~10 GB
Real‑time query latency (per view)	< 5 ms	~150 ms	~130 ms

Accuracy（准确性）：ZipMap 在标准的室内和室外数据集（ScanNet、Tanks‑&‑Temples）上表现与最佳二次基线持平，甚至略有超越。
Speed（速度）：线性时间的设计实现了 > 20× 的加速，使其能够在设备端或延迟要求严格的云服务中运行。
Scalability（可扩展性）：内存占用仅随隐藏状态大小（固定）增长，而不随输入图像数量增长，因而可以在单个 GPU 上重建数千帧。

实际意义

快速原型开发用于 AR/VR – 开发者可以即时生成高保真场景网格，实现混合现实应用中的动态世界构建，无需对大量照片进行预处理。
基于云的 3D 服务 – 接收用户上传照片集（例如房地产全景、电子商务产品扫描）的 SaaS 平台现在可以在秒级而非分钟级交付结果，降低计算成本并提升用户体验。
机器人与自主导航 – 流式版本使机器人在移动过程中持续更新紧凑的场景表示，支持需要速度和全局一致性的 SLAM 流程。
边缘部署 – 由于主要计算在一次前向传播中完成，且每视图解码器轻量，ZipMap 可以在强大的边缘 GPU（如 Jetson AGX）用于压缩步骤，CPU 用于按需查询之间进行分配。

限制与未来工作

依赖准确的相机姿态 – 当前实现假设姿态估计相对准确；大的姿态误差会降低隐藏状态的质量。
测试时训练开销 – 虽然轻量，但 TTT 步骤会在每个批次上增加几毫秒，在低功耗设备上可能会显著。
场景复杂度限制 – 固定大小的隐藏状态可能难以处理极大或高度细致的环境；扩展状态维度或使用层次化状态是一个待探索的方向。
对新模态的泛化 – 将 ZipMap 扩展至处理多模态输入（如 LiDAR、深度传感器）或在几何重建的同时进行语义分割仍是未来工作。

总体而言，ZipMap 证明了有状态的前馈模型可以突破限制 transformer‑基 3‑D 重建的二次瓶颈，为快速、可扩展且交互式的几何创建打开了大门，适用于广泛的面向开发者的应用。

作者

Haian Jin
Rundi Wu
Tianyuan Zhang
Ruiqi Gao
Jonathan T. Barron
Noah Snavely
Aleksander Holynski

论文信息

arXiv ID: 2603.04385v1
分类: cs.CV, cs.AI, cs.LG
出版日期: 2026年3月4日
PDF: 下载 PDF

[Paper] ZipMap：线性时间有状态3D重建与测试时训练

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] SimpliHuMoN: 简化人体动作预测

[Paper] RANGER: 稀疏门控混合专家与自适应检索再排序用于病理报告生成

[Paper] 如何用刀剥离：将细粒度操作与人类偏好对齐

Tether：自主功能性玩耍与Correspondence-Driven Trajectory Warping