[Paper] HarmoVid: Relightful 비디오 초상화 조화

발행: 2주 전 (2026년 5월 28일 AM 02:59 GMT+9)

8 분 소요

원문: arXiv

I’m happy to translate the text for you, but I don’t have access to the contents of the arXiv paper. Could you please paste the portion you’d like translated (e.g., the abstract, introduction, or any specific sections)? I’ll keep the source link at the top and preserve all formatting as you requested.

Overview

이 논문은 전경 비디오의 조명을 자동으로 조정하여 새로운 배경 장면과 원활하게 어우러지게 하는 새로운 시스템 HarmoVid를 소개합니다. 그림자, 색조, 그리고 조명 강도를 시간적으로 안정적인 방식으로 처리함으로써 HarmoVid는 “relightful” 비디오 초상화 조화를 실제 제작 파이프라인에 적용할 수 있도록 실용화합니다.

주요 기여

비디오 중심 조명 조화는 단일 프레임이 아니라 전체 길이 클립에서 작동합니다.
조명 디플리커링 모듈은 순진한 프레임‑별 처리로 인한 전역 및 국부 플리커를 모두 제거합니다.
확산 기반 비디오 생성은 실제와 합성된 비디오 쌍을 혼합해 학습되어 고품질이며 시간적으로 일관된 결과를 제공합니다.
비대칭 알파‑마스크 조건화는 실제 비디오 데이터에서 직접 깨끗한 전경‑배경 경계를 학습합니다.
포괄적인 평가는 기존 이미지‑ 및 비디오‑기반 방법에 비해 뛰어난 시간 일관성, 자연스러움, 재조명 유연성을 보여줍니다.

방법론

Data Preparation – 동일한 움직임이지만 조명이 다른 짝 영상이 부족하기 때문에, 저자들은 먼저 기존 영상의 각 프레임에 오프‑더‑쉘프 이미지 하모나이저를 적용합니다. 이는 대략적인 “조화된” 버전을 만들지만 시간적 요동을 발생시킵니다.
Deflickering Network – 전용 신경망 모듈이 깜박임 패턴을 분석하고 전체 프레임(전역 조명)과 지역 영역(그림자, 하이라이트) 모두에서 불일치를 부드럽게 하는 방법을 학습합니다. 출력은 깨끗하고 시간적으로 안정된 영상 쌍입니다.
Video Diffusion Model – 디플리커링된 쌍을 사용하여, 전경 클립과 목표 배경을 입력으로 조화된 영상을 예측하도록 조건부 디퓨전 모델을 학습합니다. 디퓨전 모델은 세밀한 디테일을 보존하면서 고품질 시각 콘텐츠를 생성하는 데 뛰어납니다.
Asymmetric Alpha‑Mask Conditioning – 이진 마스크를 직접 입력하는 대신, 모델은 전경 쪽이 흐려진 비대칭 마스크 버전을 받습니다. 이는 네트워크가 정밀한 가장자리 처리를 학습하고 후광 아티팩트를 방지하도록 유도합니다.
Training Mix – 시스템은 스튜디오에서 촬영한 실제 영상과 합성 렌더링 클립을 조합한 선별된 데이터셋으로 학습되어, 다양한 조명 조건과 움직임 패턴에 대한 노출을 확보합니다.

결과 및 발견

시간 일관성: 정량적 지표(예: 워핑 오류, 플리커 점수)는 프레임‑별 기준에 비해 시간적 아티팩트가 30‑40 % 감소했음을 보여줍니다.
시각적 자연스러움: 사용자 연구에서 HarmoVid의 출력이 이전 비디오 조화 도구보다 더 현실적이고 잘 블렌딩된 것으로 평가되었습니다.
경계 청결성: 비대칭 마스크 조건화는 특히 머리카락 및 반투명 영역 주변에서 더 선명하고 후광이 없는 가장자리를 제공합니다.
재조명 표현력: 모델은 주제의 정체성과 텍스처를 유지하면서 낮에서 석양으로의 극적인 조명 변화도 처리할 수 있습니다.

실용적 시사점

Film & VFX Production: 편집자는 배경(그린‑스크린, 가상 세트)을 수동으로 프레임별 조명을 로토스코핑하지 않고 교체하거나 보강할 수 있어, 수 주간의 작업 시간을 절감할 수 있습니다.
Live Streaming & AR: 실시간 애플리케이션은 발표자의 조명을 동적인 가상 환경에 맞게 조정할 수 있어, 원격 협업 시 시각 품질을 향상시킵니다.
Content Creation Platforms: 소셜‑미디어 도구는 다양한 촬영 조건에서도 사용자 제작 비디오의 일관성을 유지하는 “auto‑relight” 필터를 제공할 수 있습니다.
Game Cinematics & Cutscenes: 개발자는 촬영된 배우 연기를 여러 조명 설정에 재사용할 수 있어 재촬영 필요성을 줄입니다.

제한 사항 및 향후 연구

극단적인 조명 차이: 모델은 훈련 중에 보지 못한 범위(예: 실내 형광등 vs. 야외 석양) 이상의 조명 차이가 있을 때 어려움을 겪을 수 있습니다.
계산 비용: Diffusion inference는 여전히 상대적으로 무겁기 때문에 실시간 배포를 위해서는 모델 프루닝이나 특수 하드웨어가 필요합니다.
동적 가림: 얼굴을 가리는 손과 같이 빠르게 변하는 가림은 가끔 경계 아티팩트를 발생시킬 수 있습니다.

향후 연구 방향으로는 보다 다양한 합성 조명을 포함한 훈련 데이터셋 확장, 저지연 추론을 위한 Diffusion 파이프라인 최적화, 그리고 복잡한 가림을 더 잘 처리하기 위한 깊이 단서 통합 등이 있습니다.

저자

Jun Myeong Choi
Jae Shin Yoon
Luchao Qi
Roni Sengupta
Joon-Young Lee

논문 정보

arXiv ID: 2605.28811v1
카테고리: cs.CV
출판일: 2026년 5월 27일
PDF: PDF 다운로드

[Paper] HarmoVid: Relightful 비디오 초상화 조화

Overview

주요 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[논문] Lumos‑Nexus: 비디오 통합 모델을 위한 동질 잠재 공간 기반 효율적 주파수 연결

[논문] KLIP: 역문제에서 확산 사전과 KL 발산을 통한 국소 분포 변동 탐지

[논문] TunerDiT: 훈련 없이 확산 트랜스포머를 점진적으로 제어해 다중 이벤트 영상 생성

[논문] 비전·언어 모델, 모호한 입력에서 여성 표현 억제