[Paper] tttLRM：测试时训练用于长上下文和自回归3D重建

发布: 3天前 (2026年2月24日 GMT+8 02:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.20160v1

Overview

本文介绍了 tttLRM，一种大规模 3D 重建模型，它在传统的前馈管线中加入了 Test‑Time Training（TTT）层。通过将长序列的图像观测压缩为 fast‑weight 参数，模型构建了一个隐式的 3D 潜在表示，该表示可以解码为显式格式，如 Gaussian Splatting（GS）。该设计实现了相对于输入视图数量的 线性时间复杂度，从而在流式数据情况下也能进行高保真、自动回归的重建。

关键贡献

测试时训练层用于长上下文 3D 重建 – 能够从任意数量的输入图像即时学习快速权重，保持推理成本线性。
隐式到显式潜在管线 – TTT 压缩的潜在代码可解码为多种显式 3D 格式（例如 Gaussian splats、网格），无需重新训练。
在线学习变体 – 支持随着新视角到来进行渐进式细化，适用于实时 SLAM 类场景。
跨任务预训练 – 在新视图合成上的预训练能够有效迁移到显式 3D 建模，带来更快收敛和更高质量的重建。
领先的实验结果 – 在对象级和大规模场景基准上，相较于主流 Gaussian‑splatting 与 NeRF 方法，取得更高的 PSNR/SSIM 与视觉保真度。

方法论

Backbone encoder – 标准的视觉 Transformer 对每张输入图像独立处理，生成每个视角的特征 token。
Test‑Time Training (TTT) 层 – 一个轻量级的 MLP，其权重为 fast weights，在测试时通过对当前批次的视角特征进行少量梯度更新。损失采用自监督的重建目标（例如光度一致性）。
Latent 3D 表示 – 更新后的 fast weights 充当紧凑的代码，隐式存储几何、外观以及视角依赖的效应。
Decoder – 共享的解码器将潜在代码映射为显式的 3D 结构。论文中，主要的解码器输出一组 Gaussian splats（位置、协方差、颜色、不透明度）。相同的潜在代码也可以输入到其他解码器（例如 mesh extraction），只需极少的改动。
Autoregressive streaming – 当新图像到来时，TTT 层从先前的 fast‑weight 状态继续训练，使得潜在表示能够增量式地细化，而无需从头重新开始。

整个流水线的时间复杂度为 O(N)，其中 N 为视角数量，因为 TTT 更新是与场景规模无关的常数大小操作。

结果与发现

数据集	指标 (PSNR)	tttLRM	先前最佳 (Gaussian Splatting)
ShapeNet（对象）	31.2	31.8	30.5
ScanNet（室内场景）	28.9	29.7	28.1
实际流媒体（在线）	—	在 5 帧后实现稳定收敛	在 3 帧后发散

质量提升：tttLRM 始终比前馈基线在 PSNR 上高出 0.5‑1.2 dB，并且呈现更锐利的边缘和更少的重影伪影。
更快收敛：得益于在新视角合成上的预训练，TTT 层在每个视图只需 2‑3 次梯度步即可达到接近最优的重建效果，而普通测试时优化需要 10 步以上。
可扩展性：运行时间呈线性增长；在 RTX 4090 上重建一个 100 视图的室内场景约需 1.2 秒，而相当的基于 NeRF 的方法超过 10 秒。
通用性：相同的潜在代码成功解码为具有可比表面质量的网格，展示了该框架对格式的无关特性。

Practical Implications

实时 AR/VR 内容捕获 – 开发者可以从手持设备实时传输视频，并在无需昂贵离线优化的情况下持续获得改进的 3D 模型。
机器人与 SLAM – 在线变体使得机载机器人在探索过程中不断细化其世界模型，从而提升导航和操作规划的效果。
游戏/电影的内容管线 – 艺术家只需少量参考照片，即可瞬间生成高质量的 Gaussian‑splat 表示，直接用于已支持基于 splat 渲染的渲染管线。
边缘部署 – 由于 TTT 层轻量（仅几百 KB 的快速权重）且推理是线性的，该方法可以运行在现代 GPU 甚至高端移动 SoC 上，为设备端 3D 扫描打开了可能性。
迁移学习 – 在大规模合成视图合成数据集上进行的预训练可用于下游重建任务，降低了专用领域（如医学成像、文化遗产）数据收集的负担。

限制与未来工作

快速权重容量：紧凑的 TTT 表示在极大或高度细节化的场景（例如城市尺度的重建）中可能会遇到困难，此时需要更具表达性的潜在代码。
依赖良好的初始特征：最终重建的质量取决于主干编码器；在低光或运动模糊的帧中，特征提取不佳会导致性能下降。
对显式格式的支持有限：虽然 Gaussian splats 已被广泛研究，但将解码器扩展到面向网格的流水线（例如保持拓扑的网格）仍需进一步研究。
未来方向：作者提出的可能研究包括用于多尺度细化的层次化 TTT 层、与可微分光栅化器的集成以实现端到端纹理学习，以及探索能够更好处理动态场景的自监督损失函数。

作者

Chen Wang
Hao Tan
Wang Yifan
Zhiqin Chen
Yuheng Liu
Kalyan Sunkavalli
Sai Bi
Lingjie Liu
Yiwei Hu

论文信息

arXiv ID: 2602.20160v1
分类: cs.CV
出版时间: 2026年2月23日
PDF: 下载 PDF

[Paper] tttLRM：测试时训练用于长上下文和自回归3D重建

Overview

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[论文] Neu-PiG：神经预条件网格用于长序列的快速动态表面重建

[论文] WHOLE：基于世界坐标的手-对象提升来自第一人称视频

[Paper] Solaris: 在 Minecraft 中构建多人视频世界模型

[Paper] 现成的 Image-to-Image 模型是击败图像保护方案的全部所需