[Paper] HorizonStream: 스트리밍 3D 재구성을 위한 Long-Horizon Attention

발행: 2주 전 (2026년 5월 23일 AM 02:50 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2605.23889v1

개요

HorizonStream은 온라인(스트리밍) 3D 재구성에서 핵심 과제인 매우 긴 비디오 시퀀스 동안 카메라 자세와 장면 기하학을 정확하게 유지하면서도 제한된 메모리와 엄격히 인과적인 처리만을 사용하는 문제에 도전합니다. 시각적 증거가 시간에 따라 어떻게 전파되어야 하는지를 재고함으로써, 저자들은 수천 프레임에 걸쳐 안정적으로 동작하고 기존 파이프라인에서 흔히 발생하는 드리프트와 진동을 없애는 Transformer 기반 아키텍처를 제시합니다.

Key Contributions

Evidence Influence Kernel formalism – 기하학적 정보가 시간에 따라 어떻게 감소하거나 유지되어야 하는지를 원칙적으로 설명하는 방법으로, 단순 슬라이딩‑윈도우나 일반 순환 어텐션이 왜 실패하는지를 밝혀준다.
Geometric Linear Attention – 채널별, 다중 시간 스케일 감쇠 메커니즘으로, 메모리를 폭증시키거나 “attention sinks”를 만들지 않으면서 bounded 장거리 시간 전파를 가능하게 한다.
Geometric Local Attention with Spatiotemporal RoPE – 공간 인식을 갖춘 어텐션 모듈로, 짧은 시간 범위에서 신뢰할 수 있는 3D 매칭을 수행하면서 기하학 인식 위치 인코딩을 존중한다.
Metric Readout Tokens – 누적된 기하학적 상태로부터 안정적인 전역 스케일과 강체 포즈를 직접 추출하는 전용 토큰으로, 사후 최적화를 우회한다.
Scalable training & inference – 모델은 짧은 48프레임 클립으로 학습되지만 >10 k 프레임의 시퀀스로 일반화되며 constant memory와 linear‑time 복잡성을 유지해 표준 스트리밍 재구성 벤치마크에서 새로운 최첨단 결과를 달성한다.

Methodology

Problem framing – 저자들은 스트리밍 재구성을 기하학적 전파 문제로 본다: 각 들어오는 프레임은 기존 잠재 장면 표현과 융합되어야 하는 증거를 제공한다.
Evidence Influence Kernel – 이 커널은 과거 증거가 현재 추정에 얼마나 영향을 미쳐야 하는지를 포착한다. 이는 시간적 요소(증거가 시간에 따라 감소하는 방식)와 공간적 요소(증거가 인접 픽셀/점으로 퍼지는 방식)로 분해된다.
Temporal factor: Geometric Linear Attention
- 선형 복잡도의 어텐션을 구현하여 채널별 감쇠율을 학습한다. 이를 통해 일부 채널은 장기 정보를 유지(예: 전역 스케일)하고, 다른 채널은 빠르게 잊는다(예: 일시적인 텍스처).
- 어텐션 행렬이 고정된 크기를 초과하지 않으므로 메모리 사용량에 대한 엄격한 상한을 보장한다.
Spatial factor: Geometric Local Attention + Spatiotemporal RoPE
- 로컬 3‑D 이웃 영역에서 작동한다(슬라이딩 윈도우와 유사하지만 부드럽고 학습된 가중치를 사용).
- Rotary Positional Encoding (RoPE) 를 시공간 도메인으로 확장하여, 모델이 프레임 간 점들의 상대적 기하학을 알 수 있게 한다.
Metric Readout Tokens
- 특수 학습 가능한 토큰을 시퀀스에 추가하고, Transformer 레이어 이후에 이를 전역 포즈와 스케일로 디코딩한다. 이를 통해 메트릭 일관성을 직접적이고 미분 가능한 방식으로 강제한다.
Training regime – 네트워크는 짧은 클립(48 프레임)에서 자체 감독 포토메트릭 및 기하학적 손실을 사용해 엔드‑투‑엔드로 학습된다. 어텐션 메커니즘이 인과적이고 경계가 있기 때문에, 테스트 시 동일한 가중치를 임의로 긴 스트림에 적용할 수 있다.

Results & Findings

Dataset / Metric	HorizonStream	Prior SOTA (e.g., NeuralRecon, DeepFactors)
TUM‑RGBD (trajectory error)	0.34 %	0.58 %
ScanNet (reconstruction completeness)	92 %	84 %
Long‑run stability (10 k frames)	No drift, constant scale	Progressive drift, scale collapse
Memory footprint (per frame)	≈ 12 MB (fixed)	Grows linearly with window size

HorizonStream은 10 k 프레임 이상에 걸쳐 안정적인 메트릭 스케일을 유지합니다. 이는 이전 방법들이 주기적인 재초기화 없이 보장할 수 없었던 점입니다.
선형 시간 복잡도와 상수 메모리 특성 덕분에 단일 RTX‑3080 GPU에서 실시간 처리(≈ 30 fps)가 가능합니다.
Ablation 연구 결과, 시간적 감쇠(Geometric Linear Attention)와 공간적 RoPE 모두가 필수적이며, 둘 중 하나라도 제거하면 기존 모델에서 관찰된 동일한 드리프트 현상이 나타납니다.

Practical Implications

AR/VR & Mixed Reality – 장치는 이제 세션 동안 주기적인 초기화 없이 방이나 야외 환경의 일관된 3‑D 지도를 구축하고 유지할 수 있어 가상 객체의 공간 고정이 향상됩니다.
Robotics & Autonomous Navigation – 저전력 엣지 하드웨어에서도 장시간 SLAM이 가능해집니다; 메모리 제한이 있기 때문에 드론이나 창고 로봇이 지도 데이터를 외부에 전송하지 않고도 몇 시간 동안 작동할 수 있습니다.
Streaming 3‑D Capture – 콘텐츠 제작자는 장시간 촬영 시 드리프트를 걱정하지 않고 실시간 3‑D 재구성을 스트리밍할 수 있습니다(예: 원격 검사 또는 텔레프레즌스).
Plug‑and‑play pipelines – 모델이 짧은 클립 학습으로 동작하기 때문에 개발자는 방대한 비디오 코퍼스를 필요로 하지 않고도 도메인‑특정 데이터(예: 산업 현장)로 HorizonStream을 손쉽게 파인‑튜닝할 수 있습니다.

제한 사항 및 향후 작업

대부분 정적인 장면을 가정 – 동적인 객체(사람, 움직이는 기계)는 여전히 기하학적 상태를 손상시킬 수 있다; 명시적인 움직임 분할을 통합하는 것은 아직 해결되지 않은 방향이다.
양호한 초기 깊이에 의존 – 이 방법은 센서의 깊이 추정에 기반한다; 낮은 조명이나 반사 표면 등에서 깊이 품질이 좋지 않으면 성능이 저하된다.
다중 카메라 장비에 대한 확장성 – 현재 형식은 단일 모노큘러 또는 RGB‑D 스트림을 처리한다; 증거 커널을 확장하여 여러 동기화된 뷰를 융합하는 것은 아직 탐구가 필요하다.
감쇠율에 대한 이론적 분석 – 학습된 채널별 감쇠가 경험적으로 작동하지만, 다양한 기하학적 단서에 대한 최적 감쇠 스케줄에 대한 깊은 이해는 더욱 효율적인 설계로 이어질 수 있다.

전반적으로 HorizonStream은 이전 방법들의 무거운 메모리 사용량 없이 실제 응용에 배포할 수 있는 견고하고 장기적인 스트리밍 3‑D 재구성을 향한 중요한 단계이다.

저자

Chong Cheng
Peilin Tao
Nanjie Yao
Guanzhi Ding
Xianda Chen
Yuansen Du
Xiaoyang Guo
Wei Yin
Weiqiang Ren
Qian Zhang
Zhengqing Chen
Hao Wang

논문 정보

arXiv ID: 2605.23889v1
카테고리: cs.CV
출판일: 2026년 5월 22일
PDF: PDF 다운로드

[Paper] HorizonStream: 스트리밍 3D 재구성을 위한 Long-Horizon Attention

개요

Key Contributions

Methodology

Results & Findings

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Geo-Align: Metric Geometry Reward를 통한 비디오 생성 정렬

[Paper] PiD: 빠르고 고해상도 잠재 디코딩 with Pixel Diffusion

[Paper] ETCHR: 편집을 통한 명확화 및 추론 활용

[Paper] 활성화에서 인과성으로: 인간 뇌에서 Causal Visual Representations 발견