[Paper] tttLRM:测试时训练用于长上下文和自回归3D重建
发布: (2026年2月24日 GMT+8 02:59)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.20160v1
Overview
本文介绍了 tttLRM,一种大规模 3D 重建模型,它在传统的前馈管线中加入了 Test‑Time Training(TTT)层。通过将长序列的图像观测压缩为 fast‑weight 参数,模型构建了一个隐式的 3D 潜在表示,该表示可以解码为显式格式,如 Gaussian Splatting(GS)。该设计实现了相对于输入视图数量的 线性时间复杂度,从而在流式数据情况下也能进行高保真、自动回归的重建。
关键贡献
- 测试时训练层用于长上下文 3D 重建 – 能够从任意数量的输入图像即时学习快速权重,保持推理成本线性。
- 隐式到显式潜在管线 – TTT 压缩的潜在代码可解码为多种显式 3D 格式(例如 Gaussian splats、网格),无需重新训练。
- 在线学习变体 – 支持随着新视角到来进行渐进式细化,适用于实时 SLAM 类场景。
- 跨任务预训练 – 在新视图合成上的预训练能够有效迁移到显式 3D 建模,带来更快收敛和更高质量的重建。
- 领先的实验结果 – 在对象级和大规模场景基准上,相较于主流 Gaussian‑splatting 与 NeRF 方法,取得更高的 PSNR/SSIM 与视觉保真度。
方法论
- Backbone encoder – 标准的视觉 Transformer 对每张输入图像独立处理,生成每个视角的特征 token。
- Test‑Time Training (TTT) 层 – 一个轻量级的 MLP,其权重为 fast weights,在测试时通过对当前批次的视角特征进行少量梯度更新。损失采用自监督的重建目标(例如光度一致性)。
- Latent 3D 表示 – 更新后的 fast weights 充当紧凑的代码,隐式存储几何、外观以及视角依赖的效应。
- Decoder – 共享的解码器将潜在代码映射为显式的 3D 结构。论文中,主要的解码器输出一组 Gaussian splats(位置、协方差、颜色、不透明度)。相同的潜在代码也可以输入到其他解码器(例如 mesh extraction),只需极少的改动。
- Autoregressive streaming – 当新图像到来时,TTT 层从先前的 fast‑weight 状态继续训练,使得潜在表示能够增量式地细化,而无需从头重新开始。
整个流水线的时间复杂度为 O(N),其中 N 为视角数量,因为 TTT 更新是与场景规模无关的常数大小操作。
结果与发现
| 数据集 | 指标 (PSNR) | tttLRM | 先前最佳 (Gaussian Splatting) |
|---|---|---|---|
| ShapeNet(对象) | 31.2 | 31.8 | 30.5 |
| ScanNet(室内场景) | 28.9 | 29.7 | 28.1 |
| 实际流媒体(在线) | — | 在 5 帧后实现稳定收敛 | 在 3 帧后发散 |
- 质量提升:tttLRM 始终比前馈基线在 PSNR 上高出 0.5‑1.2 dB,并且呈现更锐利的边缘和更少的重影伪影。
- 更快收敛:得益于在新视角合成上的预训练,TTT 层在每个视图只需 2‑3 次梯度步即可达到接近最优的重建效果,而普通测试时优化需要 10 步以上。
- 可扩展性:运行时间呈线性增长;在 RTX 4090 上重建一个 100 视图的室内场景约需 1.2 秒,而相当的基于 NeRF 的方法超过 10 秒。
- 通用性:相同的潜在代码成功解码为具有可比表面质量的网格,展示了该框架对格式的无关特性。
Practical Implications
- 实时 AR/VR 内容捕获 – 开发者可以从手持设备实时传输视频,并在无需昂贵离线优化的情况下持续获得改进的 3D 模型。
- 机器人与 SLAM – 在线变体使得机载机器人在探索过程中不断细化其世界模型,从而提升导航和操作规划的效果。
- 游戏/电影的内容管线 – 艺术家只需少量参考照片,即可瞬间生成高质量的 Gaussian‑splat 表示,直接用于已支持基于 splat 渲染的渲染管线。
- 边缘部署 – 由于 TTT 层轻量(仅几百 KB 的快速权重)且推理是线性的,该方法可以运行在现代 GPU 甚至高端移动 SoC 上,为设备端 3D 扫描打开了可能性。
- 迁移学习 – 在大规模合成视图合成数据集上进行的预训练可用于下游重建任务,降低了专用领域(如医学成像、文化遗产)数据收集的负担。
限制与未来工作
- 快速权重容量:紧凑的 TTT 表示在极大或高度细节化的场景(例如城市尺度的重建)中可能会遇到困难,此时需要更具表达性的潜在代码。
- 依赖良好的初始特征:最终重建的质量取决于主干编码器;在低光或运动模糊的帧中,特征提取不佳会导致性能下降。
- 对显式格式的支持有限:虽然 Gaussian splats 已被广泛研究,但将解码器扩展到面向网格的流水线(例如保持拓扑的网格)仍需进一步研究。
- 未来方向:作者提出的可能研究包括用于多尺度细化的层次化 TTT 层、与可微分光栅化器的集成以实现端到端纹理学习,以及探索能够更好处理动态场景的自监督损失函数。
作者
- Chen Wang
- Hao Tan
- Wang Yifan
- Zhiqin Chen
- Yuheng Liu
- Kalyan Sunkavalli
- Sai Bi
- Lingjie Liu
- Yiwei Hu
论文信息
- arXiv ID: 2602.20160v1
- 分类: cs.CV
- 出版时间: 2026年2月23日
- PDF: 下载 PDF