[Paper] tttLRM:测试时训练用于长上下文和自回归3D重建

发布: (2026年2月24日 GMT+8 02:59)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.20160v1

Overview

本文介绍了 tttLRM,一种大规模 3D 重建模型,它在传统的前馈管线中加入了 Test‑Time Training(TTT)层。通过将长序列的图像观测压缩为 fast‑weight 参数,模型构建了一个隐式的 3D 潜在表示,该表示可以解码为显式格式,如 Gaussian Splatting(GS)。该设计实现了相对于输入视图数量的 线性时间复杂度,从而在流式数据情况下也能进行高保真、自动回归的重建。

关键贡献

  • 测试时训练层用于长上下文 3D 重建 – 能够从任意数量的输入图像即时学习快速权重,保持推理成本线性。
  • 隐式到显式潜在管线 – TTT 压缩的潜在代码可解码为多种显式 3D 格式(例如 Gaussian splats、网格),无需重新训练。
  • 在线学习变体 – 支持随着新视角到来进行渐进式细化,适用于实时 SLAM 类场景。
  • 跨任务预训练 – 在新视图合成上的预训练能够有效迁移到显式 3D 建模,带来更快收敛和更高质量的重建。
  • 领先的实验结果 – 在对象级和大规模场景基准上,相较于主流 Gaussian‑splatting 与 NeRF 方法,取得更高的 PSNR/SSIM 与视觉保真度。

方法论

  1. Backbone encoder – 标准的视觉 Transformer 对每张输入图像独立处理,生成每个视角的特征 token。
  2. Test‑Time Training (TTT) 层 – 一个轻量级的 MLP,其权重为 fast weights,在测试时通过对当前批次的视角特征进行少量梯度更新。损失采用自监督的重建目标(例如光度一致性)。
  3. Latent 3D 表示 – 更新后的 fast weights 充当紧凑的代码,隐式存储几何、外观以及视角依赖的效应。
  4. Decoder – 共享的解码器将潜在代码映射为显式的 3D 结构。论文中,主要的解码器输出一组 Gaussian splats(位置、协方差、颜色、不透明度)。相同的潜在代码也可以输入到其他解码器(例如 mesh extraction),只需极少的改动。
  5. Autoregressive streaming – 当新图像到来时,TTT 层从先前的 fast‑weight 状态继续训练,使得潜在表示能够增量式地细化,而无需从头重新开始。

整个流水线的时间复杂度为 O(N),其中 N 为视角数量,因为 TTT 更新是与场景规模无关的常数大小操作。

结果与发现

数据集指标 (PSNR)tttLRM先前最佳 (Gaussian Splatting)
ShapeNet(对象)31.231.830.5
ScanNet(室内场景)28.929.728.1
实际流媒体(在线)在 5 帧后实现稳定收敛在 3 帧后发散
  • 质量提升:tttLRM 始终比前馈基线在 PSNR 上高出 0.5‑1.2 dB,并且呈现更锐利的边缘和更少的重影伪影。
  • 更快收敛:得益于在新视角合成上的预训练,TTT 层在每个视图只需 2‑3 次梯度步即可达到接近最优的重建效果,而普通测试时优化需要 10 步以上。
  • 可扩展性:运行时间呈线性增长;在 RTX 4090 上重建一个 100 视图的室内场景约需 1.2 秒,而相当的基于 NeRF 的方法超过 10 秒。
  • 通用性:相同的潜在代码成功解码为具有可比表面质量的网格,展示了该框架对格式的无关特性。

Practical Implications

  • 实时 AR/VR 内容捕获 – 开发者可以从手持设备实时传输视频,并在无需昂贵离线优化的情况下持续获得改进的 3D 模型。
  • 机器人与 SLAM – 在线变体使得机载机器人在探索过程中不断细化其世界模型,从而提升导航和操作规划的效果。
  • 游戏/电影的内容管线 – 艺术家只需少量参考照片,即可瞬间生成高质量的 Gaussian‑splat 表示,直接用于已支持基于 splat 渲染的渲染管线。
  • 边缘部署 – 由于 TTT 层轻量(仅几百 KB 的快速权重)且推理是线性的,该方法可以运行在现代 GPU 甚至高端移动 SoC 上,为设备端 3D 扫描打开了可能性。
  • 迁移学习 – 在大规模合成视图合成数据集上进行的预训练可用于下游重建任务,降低了专用领域(如医学成像、文化遗产)数据收集的负担。

限制与未来工作

  • 快速权重容量:紧凑的 TTT 表示在极大或高度细节化的场景(例如城市尺度的重建)中可能会遇到困难,此时需要更具表达性的潜在代码。
  • 依赖良好的初始特征:最终重建的质量取决于主干编码器;在低光或运动模糊的帧中,特征提取不佳会导致性能下降。
  • 对显式格式的支持有限:虽然 Gaussian splats 已被广泛研究,但将解码器扩展到面向网格的流水线(例如保持拓扑的网格)仍需进一步研究。
  • 未来方向:作者提出的可能研究包括用于多尺度细化的层次化 TTT 层、与可微分光栅化器的集成以实现端到端纹理学习,以及探索能够更好处理动态场景的自监督损失函数。

作者

  • Chen Wang
  • Hao Tan
  • Wang Yifan
  • Zhiqin Chen
  • Yuheng Liu
  • Kalyan Sunkavalli
  • Sai Bi
  • Lingjie Liu
  • Yiwei Hu

论文信息

  • arXiv ID: 2602.20160v1
  • 分类: cs.CV
  • 出版时间: 2026年2月23日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »