[Paper] Relit‑LiVE: 환경 비디오를 공동 학습하여 비디오 재조명

발행: 3일 전 (2026년 5월 8일 AM 02:58 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2605.06658v1

Overview

Relit‑LiVE는 컴퓨터 비전 분야의 오랜 문제인 기존 비디오의 조명을 변경하면서 장면의 외관을 물리적으로 타당하고 시간적으로 안정적으로 유지하는 방법을 다룹니다. 원시 비디오 프레임과 확산 기반 환경‑맵 예측기를 결합함으로써, 저자들은 카메라 포즈나 완벽한 내재적 분해가 필요 없는 고품질 재조명을 달성했습니다—이는 실제 영상에 대한 기존 방법들을 제한해 온 요소였습니다.

주요 기여

Reference‑guided diffusion rendering – 원시 입력 프레임을 확산 과정에 주입하여, 모델이 일반적인 내재적 분해에서는 놓치는 손실된 장면 단서를 복구하도록 합니다.
Joint video‑and‑environment‑map prediction – 하나의 확산 모델이 재조명된 비디오 와 현재 시점에 정렬된 프레임별 환경 맵을 동시에 출력하여 기하‑조명 일관성을 보장합니다.
Pose‑free operation – 프레임별 카메라 자세 정보를 명시적으로 제공하지 않아도 프레임워크가 동작하며, 동적 조명 및 카메라 움직임을 바로 처리합니다.
Broad downstream utility – 재조명 외에도 동일 파이프라인이 재질 편집, 객체 삽입, 실시간 스트리밍 재조명까지 지원합니다.
State‑of‑the‑art performance – 합성 및 실제 데이터셋에 대한 광범위한 벤치마크에서 기존 비디오 재조명 및 신경 렌더링 기준 대비 일관된 향상을 보여줍니다.

방법론

입력 전처리 – 원본 비디오는 프레임으로 분할되며, 각 프레임은 오직 거친 가이드를 제공하기 위해 경량 내재 추정기(반사율, 법선, 깊이)를 통과합니다.
레퍼런스 주입 – 원본 RGB 프레임을 내재 맵과 연결(concatenate)하여 비디오 확산 모델에 조건 신호로 전달합니다. 이를 통해 네트워크가 필요할 때 실제 픽셀 값을 “돌아보게” 하여 순수 내재‑전용 파이프라인이 겪는 드리프트를 방지합니다.
환경 비디오 확산 – 확산 모델은 각 타임스텝마다 현재 카메라 뷰와 공간적으로 정렬된 2‑D 조명 표현인 프레임별 환경 맵을 예측하도록 학습됩니다. 환경 맵과 재조명된 프레임은 하나의 전방 패스(forward pass)에서 동시에 생성됩니다.
시간적 일관성 – 시간적 어텐션 블록이 확산 백본 내부에서 인접 프레임을 연결하여 부드러운 조명 전환을 유도하고 깜박임을 억제합니다.
학습 목표 – 재구성 손실(픽셀‑단위 L2), 지각 손실(VGG 기반), 그리고 예측된 환경 맵, 기하학, 렌더링된 외관 사이의 불일치를 벌점화하는 물리 기반 쉐이딩 손실을 결합한 형태입니다.

전체 파이프라인은 단일 GPU에서 엔드‑투‑엔드로 실행되며, 입력으로는 원시 비디오만 필요합니다.

결과 및 발견

정량적 향상: Real‑World Relighting Benchmark (RWRB)에서 Relit‑LiVE는 이전 최고 방법에 비해 PSNR을 약 2.1 dB, LPIPS를 약 0.08 향상시킨다.
시간적 안정성: 새로운 시간‑플리커 메트릭은 기준 모델에 비해 프레임 간 변동성이 35 % 감소했음을 보여준다.
포즈 오류에 대한 견고성: 합성 카메라 포즈를 의도적으로 손상시킨 실험에서 Relit‑LiVE의 성능은 점진적으로 감소하는 반면, 포즈에 의존하는 방법은 크게 실패함을 보여준다.
실제 시연: 저자들은 손에 들고 촬영한 스마트폰 영상, 야외 거리 장면, 실내 토크쇼 녹화 등을 재조명한 사례를 보여주며, 모두 자연스러운 그림자와 반사 하이라이트를 구현한다.

Practical Implications

Post‑production lighting – 영화 제작자와 콘텐츠 제작자는 촬영 후에 조명을 조정할 수 있어 현장에서 시간과 장비를 절약할 수 있습니다.
AR/VR asset integration – 개발자는 기존 비디오 스트림에 가상 객체를 삽입하고 조명이 주변 환경에 자동으로 맞춰지도록 할 수 있습니다.
Live streaming – 방송사는 장면 기하학을 사전 계산하지 않고도 실시간으로 동적 조명 효과(예: 낮‑밤 전환)를 적용할 수 있습니다.
Game engine pipelines – 공동 환경 맵 예측은 컷신과 게임플레이 영상 전반에 걸쳐 일관된 조명을 제공하기 위해 실시간 렌더러에 직접 전달될 수 있습니다.
Privacy‑preserving visual effects – 이 방법은 명시적인 카메라 포즈 데이터가 필요 없으므로 포즈 추정이 바람직하지 않거나 불가능한 엣지 디바이스에 배포할 수 있습니다.

제한 사항 및 향후 연구

내재 추정기 의존 – 원시 프레임이 오류를 완화하지만, 매우 노이즈가 많거나 저해상도 입력은 여전히 최적 이하의 재조명을 초래합니다.
계산 비용 – 확산 추론은 전통적인 래스터화보다 여전히 느리며, 실시간 스트리밍을 위해서는 추가 가속(예: 증류 또는 특수 하드웨어)이 필요합니다.
동적 기하학 – 현재 공식은 프레임당 정적인 씬 기하학을 가정하며, 변형 가능한 객체나 대규모 씬 변화 처리는 아직 해결되지 않은 과제입니다.
환경 맵 해상도 – 예측된 환경 맵은 제한된 해상도에 머물러 고주파 반사 세부 사항에 영향을 줄 수 있으며, 향후 연구에서는 계층적 또는 신경장 필드 표현을 탐색할 수 있습니다.

전체적으로, Relit‑LiVE는 비디오 재조명을 실용적이고 프로덕션에 적합한 사용 사례로 끌어올리며, 영화, 게임, AR/VR 전반에 걸쳐 보다 유연한 조명 워크플로우의 문을 엽니다.

저자

Weiqing Xiao
Hong Li
Xiuyu Yang
Houyuan Chen
Wenyi Li
Tianqi Liu
Shaocong Xu
Chongjie Ye
Hao Zhao
Beibei Wang

논문 정보

arXiv ID: 2605.06658v1
분류: cs.CV
출판일: 2026년 5월 7일
PDF: PDF 다운로드

[Paper] Relit‑LiVE: 환경 비디오를 공동 학습하여 비디오 재조명

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 트래젝터리 모델 정규화

[Paper] Proxy3D: Vision‑Language 모델을 위한 효율적인 3D 표현, 시맨틱 클러스터링 및 정렬을 통해

[Paper] Flow-OPD: Flow Matching 모델을 위한 온-폴리시 증류

[Paper] 고제약 인간 모션 생성에 대한 Retrieval-Guided Diffusion Noise Optimization