[Paper] ReCoSplat: Render-and-Compare를 이용한 Autoregressive Feed-Forward Gaussian Splatting

발행: (2026년 3월 11일 AM 02:58 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2603.09968v1

번역할 텍스트가 제공되지 않았습니다. 번역을 원하는 본문을 알려주시면 한국어로 번역해 드리겠습니다.

개요

ReCoSplat은 online novel‑view synthesis을 위한 새로운 피드‑포워드 모델로, 알려진 카메라 포즈나 내부 파라미터가 있든 없든 비디오 스트림을 받아들일 수 있습니다. 자동회귀 Gaussian‑splatting 백본에 영리한 “render‑and‑compare” 피드백 루프를 결합함으로써, 시스템은 의존하는 포즈 추정이 노이즈가 많을 때에도 안정적으로 동작합니다—이는 실제 AR/VR 파이프라인에서 흔히 발생하는 문제입니다.

핵심 기여

  • Autoregressive Gaussian Splatting for unposed inputs – raw video frames와 함께 작동하며, 카메라 포즈를 실시간으로 추정합니다.
  • Render‑and‑Compare (ReCo) module – 예측된 시점에서 현재 장면을 렌더링하고, 들어오는 프레임과 비교하여 잔차를 조건 신호로 사용해 추론 중 포즈 드리프트를 보정합니다.
  • Hybrid KV‑cache compression – 두 단계 메모리 절감 방식(초기 레이어 트렁케이션 + 청크 수준 선택적 보존)으로, 100프레임 이상 시퀀스에 대해 트랜스포머 스타일 키‑밸류 캐시를 90 % 이상 감소시킵니다.
  • State‑of‑the‑art results on both in‑distribution (예: LLFF, Tanks‑and‑Temples) 및 out‑of‑distribution 벤치마크 모두에서, 네 가지 입력 구성(포즈 있음/없음, 내부 파라미터 있음/없음) 전반에 걸쳐 최첨단 결과를 달성했습니다.
  • Open‑source release of code and pretrained models, facilitating rapid adoption. 코드를 오픈소스로 공개하고 사전 학습 모델을 제공하여 빠른 도입을 촉진합니다.

Methodology

  1. Gaussian Splatting Backbone – 장면은 위치, 공분산, 색상, 불투명도와 같은 속성을 가벼운 피드‑포워드 네트워크가 예측하는 3D 가우시안 집합으로 표현됩니다. NeRF‑스타일의 볼류메트릭 렌더링과 달리 스플래팅은 빠르고 자연스럽게 증분 업데이트를 지원합니다.

  2. Autoregressive Assembly – 새로운 프레임마다 모델은 새로운 가우시안 배치를 예측하고 이를 기존 재구성에 추가합니다. 이 “온라인” 어셈블리는 프레임 수에 대해 선형적으로 확장되며, 정규 공간 방법의 비용이 많이 드는 전역 최적화를 피합니다.

  3. Pose Handling Dilemma – 실제 자세(ground‑truth pose)로 학습하면 안정적인 그래디언트를 얻을 수 있지만, 테스트 시 모델은 자체 자세 예측에 의존해야 하므로 분포 이동이 발생합니다.

  4. Render‑and‑Compare (ReCo) Loop

    • 예측된 카메라 자세에서 현재 가우시안 집합을 렌더링합니다.
    • 렌더링된 이미지를 들어오는 관측 이미지와 픽셀 단위로 비교합니다.
    • 잔차(차이 이미지)를 네트워크에 추가적인 조건 신호로 다시 입력하여 “내 자세 추정이 여기서 틀렸다”는 정보를 모델에 전달합니다.
    • 이 피드백은 학습을 안정화하고 훈련‑테스트 자세 차이를 메워 줍니다.
  5. Hybrid KV‑Cache Compression – 자동 회귀 파이프라인은 키‑값 쌍의 히스토리를 계속 쌓기 때문에(트랜스포머와 유사) 메모리가 급증할 수 있습니다. 저수준 특징을 포착하는 초기 레이어를 잘라내고, 이후 레이어에 대해 가장 정보량이 많은 청크만 선택적으로 유지함으로써 품질 저하 없이 캐시 크기를 90 % 이상 감소시킵니다.

결과 및 발견

설정지표 (예: PSNR)이전 SOTA 대비 상대 향상
Posed + Intrinsics (LLFF)31.8 dB+0.9 dB
Unposed + No Intrinsics (Tanks‑and‑Temples)28.4 dB+1.2 dB
Long‑sequence (100+ frames)30.1 dB+0.7 dB
Out‑of‑distribution (synthetic‑to‑real)27.6 dB+1.0 dB
  • ReCo 모듈은 예측된 포즈만 사용하는 베이스라인에 비해 포즈 유도 아티팩트를 약 30 % 감소시킵니다.
  • 120프레임 시퀀스의 메모리 사용량이 약 2 GB에서 ~180 MB로 감소하여 단일 RTX‑3080에서도 실시간 추론이 가능합니다.
  • 정성적 예시에서는 입력 비디오에 급격한 움직임이나 저조도 조건이 포함되더라도 선명한 가장자리와 일관된 기하학을 보여줍니다.

Practical Implications

  • AR/VR streaming – 개발자는 이제 사전 보정된 카메라 없이도 핸드헬드 디바이스에서 실시간 3D 재구성을 스트리밍할 수 있어, 공유 혼합 현실 경험을 위한 디바이스 내 장면 캡처가 가능해집니다.
  • Robotics & SLAM – 포즈가 지정되지 않은 비디오를 입력하고 실시간으로 고밀도 렌더링 가능한 모델을 출력하는 능력은 GPS가 차단된 환경에서 작동하는 드론이나 자율 주행 차량의 매핑 파이프라인을 간소화합니다.
  • Content creation – 아티스트는 일반 스마트폰으로 장면을 촬영하고 즉시 게임이나 가상 제작에 사용할 수 있는 고품질 3D 에셋을 얻을 수 있어, 시간 소모가 큰 포토그래메트리 파이프라인을 우회합니다.
  • Edge deployment – KV‑캐시 압축 덕분에 이 접근 방식이 엣지 GPU나 고성능 모바일 SoC에서도 구현 가능해져, 디바이스 내 3D 재구성 앱의 문을 엽니다.

제한 사항 및 향후 연구

  • 동적 장면 – ReCoSplat은 정적 환경을 가정합니다; 움직이는 객체는 현재 유령 현상을 일으킵니다. 모델을 동적 요소를 처리하도록 확장하는 것은 아직 해결되지 않은 과제입니다.
  • 극단적인 자세 오류 – ReCo는 중간 정도의 자세 드리프트는 완화하지만, 매우 큰 초기 자세 추정 오류는 여전히 재구성을 불안정하게 만들 수 있습니다. 보다 강력한 자세 사전이나 다중 뷰 기하학 검사를 통합하면 도움이 될 수 있습니다.
  • 200 프레임 이상 확장성 – KV‑캐시 압축은 약 150 프레임까지는 효과적이지만, 초장기 시퀀스(예: 하루 전체 촬영)는 여전히 메모리 한계에 도달할 수 있습니다; 계층적 장면 분할이 유망한 방향입니다.

저자들은 향후 작업에서 동적 장면 확장, 학습된 자세 추정기와의 보다 긴밀한 통합, 그리고 계층적 캐싱 전략을 탐구할 계획입니다.

저자

  • Freeman Cheng
  • Botao Ye
  • Xueting Li
  • Junqi You
  • Fangneng Zhan
  • Ming‑Hsuan Yang

논문 정보

  • arXiv ID: 2603.09968v1
  • 분류: cs.CV
  • 출판일: 2026년 3월 10일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »

[논문] 스케일 스페이스 확산

Diffusion models는 이미지를 노이즈를 통해 손상시키고, 이 과정을 역전하면 타임스텝 전반에 걸친 정보 계층 구조가 드러납니다. Scale-space theory는 유사한…