[Paper] tttLRM: 긴 컨텍스트와 자동회귀 3D 재구성을 위한 Test-Time Training

발행: (2026년 2월 24일 오전 03:59 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.20160v1

개요

이 논문은 tttLRM이라는 대규모 3D 재구성 모델을 소개합니다. 이 모델은 기존의 피드‑포워드 파이프라인에 Test‑Time Training (TTT) 레이어를 삽입합니다. 이미지 관측의 긴 시퀀스를 fast‑weight 파라미터로 압축함으로써, 모델은 Gaussian Splatting (GS)과 같은 명시적 형식으로 디코딩할 수 있는 암시적 3D 잠재 표현을 구축합니다. 이 설계는 입력 뷰 수에 대해 linear‑time complexity를 제공하여, 스트리밍 데이터에서도 고‑품질, 자동회귀 재구성을 가능하게 합니다.

주요 기여

  • Test‑Time Training layer for long‑context 3D reconstruction – 임의 개수의 입력 이미지로부터 즉시 빠른 가중치를 학습하여 추론 비용을 선형으로 유지합니다.
  • Implicit‑to‑explicit latent pipeline – TTT 압축된 잠재 코드를 재학습 없이 여러 명시적 3D 형식(예: Gaussian splats, meshes)으로 디코딩할 수 있습니다.
  • Online learning variant – 새로운 뷰가 들어올 때 점진적인 정제를 지원하여 실시간 SLAM 유사 시나리오에 적합합니다.
  • Cross‑task pre‑training – 새로운 뷰 합성에 대한 사전 학습이 명시적 3D 모델링으로 효과적으로 전이되어 더 빠른 수렴과 높은 품질의 재구성을 제공합니다.
  • State‑of‑the‑art results – 선도적인 Gaussian‑splatting 및 NeRF 기반 방법과 비교하여 객체 수준 및 대규모 장면 벤치마크 모두에서 우수한 PSNR/SSIM 및 시각적 충실도를 달성합니다.

방법론

  1. Backbone encoder – 표준 비전 트랜스포머가 각 입력 이미지를 독립적으로 처리하여 각 뷰별 특징 토큰을 생성합니다.
  2. Test‑Time Training (TTT) layer – 가벼운 MLP이며, 그 가중치는 fast weights 로서 테스트 시 현재 뷰 특징 배치에 대해 몇 번의 그래디언트 스텝으로 업데이트됩니다. 손실은 자체 지도 재구성 목표(예: 광도 일관성)입니다.
  3. Latent 3D representation – 업데이트된 fast weights는 기하학, 외관, 뷰 의존 효과를 암묵적으로 저장하는 압축 코드 역할을 합니다.
  4. Decoder – 공유 디코더가 잠재 코드를 명시적인 3D 구조로 매핑합니다. 논문에서는 주요 디코더가 가우시안 스플랫 집합(위치, 공분산, 색상, 불투명도)을 출력합니다. 동일한 잠재 코드를 최소한의 변경으로 다른 디코더(예: 메쉬 추출)에 입력할 수 있습니다.
  5. Autoregressive streaming – 새로운 이미지가 도착하면 TTT 레이어가 이전 fast‑weight 상태에서 학습을 계속하여, 잠재 표현을 처음부터 다시 시작하지 않고 점진적으로 정제할 수 있습니다.

전체 파이프라인은 N이 뷰 수인 O(N) 시간 복잡도로 실행됩니다. 이는 TTT 업데이트가 장면 규모와 무관한 고정 크기 연산이기 때문입니다.

Source:

결과 및 발견

DatasetMetric (PSNR)tttLRMPrior SOTA (Gaussian Splatting)
ShapeNet (objects)31.231.830.5
ScanNet (indoor scenes)28.929.728.1
Real‑world streaming (online)5 프레임 이후 안정적인 수렴3 프레임 이후 발산
  • 품질 향상: tttLRM은 피드포워드 베이스라인보다 PSNR에서 0.5‑1.2 dB씩 일관되게 우수하며, 가장자리 선명도가 높고 유령 현상이 적습니다.
  • 빠른 수렴: 새로운 뷰 합성에 대한 사전 학습 덕분에 TTT 레이어는 뷰당 2–3번의 그래디언트 스텝만으로 거의 최적에 가까운 복원을 달성합니다. 이는 일반 테스트‑타임 최적화에서 10회 이상이 필요한 것과 대비됩니다.
  • 확장성: 실행 시간은 선형적으로 증가합니다. 100개의 뷰를 가진 실내 장면을 재구성하는 데 RTX 4090에서 약 1.2 초가 소요되는 반면, 유사한 NeRF 기반 방법은 10 초 이상이 걸립니다.
  • 다재다능성: 동일한 잠재 코드를 메쉬로 디코딩했을 때도 비슷한 표면 품질을 유지했으며, 이는 프레임워크가 포맷에 구애받지 않음을 보여줍니다.

실용적인 시사점

  • 실시간 AR/VR 콘텐츠 캡처 – 개발자는 핸드헬드 디바이스에서 영상을 스트리밍하고, 비용이 많이 드는 오프라인 최적화 없이도 지속적으로 개선되는 3D 모델을 얻을 수 있습니다.
  • 로보틱스 및 SLAM – 온라인 변형은 로봇이 탐색하면서 세계 모델을 정제하도록 하여 내비게이션 및 조작 계획을 향상시킵니다.
  • 게임/영화용 콘텐츠 파이프라인 – 아티스트는 적은 수의 레퍼런스 사진을 입력하고 즉시 고품질 Gaussian‑splat 표현을 생성할 수 있으며, 이는 이미 splat‑based 렌더링을 지원하는 렌더링 파이프라인에 바로 사용할 수 있습니다.
  • 엣지 배포 – TTT 레이어가 가볍고(수백 KB의 fast weights) 추론이 선형이기 때문에, 이 접근법은 최신 GPU는 물론 고성능 모바일 SoC에서도 실행 가능하여 온‑디바이스 3D 스캔의 가능성을 열어줍니다.
  • 전이 학습 – 대규모 합성 view‑synthesis 데이터셋에 대한 사전 학습을 활용해 다운스트림 재구성 작업에 재사용함으로써, 특수 분야(예: 의료 영상, 문화 유산)에서 데이터 수집 부담을 줄일 수 있습니다.

제한 사항 및 향후 작업

  • Fast‑weight capacity: 컴팩트한 TTT 표현은 매우 큰 규모이거나 고도로 상세한 장면(예: 도시‑규모 재구성)에서 더 표현력이 풍부한 잠재 코드가 필요할 경우 어려움을 겪을 수 있다.
  • Dependency on good initial features: 최종 재구성의 품질은 백본 인코더에 좌우된다; 저조도나 움직임 흐림 프레임에서 특징 추출이 부실하면 성능이 저하될 수 있다.
  • Limited explicit format support: Gaussian splats는 잘 연구되어 있지만, 디코더를 메쉬‑지향 파이프라인(예: 토폴로지‑보존 메쉬)으로 확장하려면 추가 연구가 필요하다.
  • Future directions suggested by the authors include hierarchical TTT layers for multi‑scale refinement, integration with differentiable rasterizers for end‑to‑end texture learning, and exploring self‑supervised loss functions that better handle dynamic scenes.

저자

  • Chen Wang
  • Hao Tan
  • Wang Yifan
  • Zhiqin Chen
  • Yuheng Liu
  • Kalyan Sunkavalli
  • Sai Bi
  • Lingjie Liu
  • Yiwei Hu

논문 정보

  • arXiv ID: 2602.20160v1
  • 분류: cs.CV
  • 출판일: 2026년 2월 23일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »