[Paper] Geo-Align: Metric Geometry Reward를 통한 비디오 생성 정렬

발행: 2주 전 (2026년 5월 23일 AM 02:59 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2605.23903v1

Overview

논문 Geo-Align은 강화학습(RL) 프레임워크를 도입하여 비디오 생성 모델이 정확한 카메라 움직임—회전과 이동 모두—을 따르도록 학습시킵니다. 이를 위해 대규모 짝지어진 다중 뷰 실제 데이터셋이 필요하지 않습니다. 카메라 제어 정확성을 학습 가능한 보상으로 전환함으로써, 저자들은 합성 훈련 데이터와 실제 배포 환경의 복잡한 비디오 사이의 격차를 메웁니다.

핵심 기여

카메라 제어 비디오 재렌더링을 위한 최초의 RL 기반 접근법으로, 기하학을 인식하는 보상을 직접 최적화합니다.
스케일 인식 지각 보상은 생성된 비디오 자체에서 추출한 3‑D 카메라 자세(회전 + 이동)의 편차를 벌점으로 부과합니다.
Metric‑3D 추정기는 렌더링된 프레임으로부터 카메라 궤적을 안정적으로 복원하여 폐쇄 루프 학습을 가능하게 합니다.
실제 세계 조건 비디오와 합성 목표 궤적을 혼합하는 데이터 파이프라인을 제공하여, 쌍을 이루는 다중 뷰 정답 데이터가 필요 없게 합니다.
강력한 지도 학습 기반 모델에 대한 실증적 향상을 보여주며, 자세 정확도 지표와 시각적 품질(PSNR/LPIPS) 모두에서 우수한 성능을 달성합니다.

방법론

Base Model – 사전 학습된 비디오‑투‑비디오 합성 네트워크(예: 확산 또는 GAN‑기반 재렌더러)에서 시작하여 소스 비디오와 원하는 카메라 경로를 입력으로 받을 수 있다.
Metric‑3D Estimator – 별도의 네트워크(또는 고전적인 SfM 파이프라인)가 각 생성 프레임에 대한 3‑D 카메라 자세를 예측한다. 이는 생성기가 가상 카메라가 현재 위치를 어떻게 인식하는지 알려주는 “자체 진단”이라고 생각하면 된다.
Reward Design – RL 보상은 두 가지 항목을 결합한다:
- Pose Alignment – 추정된 자세와 목표 궤적(회전 및 변위 모두) 사이의 L2 거리.
- Perceptual Fidelity – 출력이 시각적으로 현실적이도록 유지하기 위한 학습된 지각 유사도 점수(예: LPIPS).
RL Loop – Proximal Policy Optimization(PPO) 또는 유사한 정책 그라디언트 방법을 사용하여, 생성기의 파라미터를 보상을 최대화하도록 업데이트한다. 정책은 (소스 비디오, 목표 자세) → 출력 비디오의 조건부 매핑이다.
Data Pipeline – 실제 비디오는 조건 입력(재렌더링할 콘텐츠)으로 사용된다. 목표 카메라 궤적은 실제 데이터와 짝지어지지 않은 보상을 계산할 수 있도록, 실제 자세가 알려진 합성 장면에서 샘플링한다.

결과 및 발견

지표	감독 학습 베이스라인	Geo‑Align (RL)
포즈 RMSE (°)	5.8	2.3
변환 RMSE (cm)	12.4	4.7
PSNR (dB)	28.1	29.6
LPIPS	0.21	0.15

포즈 정확도가 평균 >60 % 향상되어 생성된 비디오가 의도된 카메라 경로를 훨씬 더 정확하게 따릅니다.
시각적 품질도 향상되어 기하학 인식 보상이 현실성을 희생하지 않음을 보여줍니다.
정성적 예시들은 움직임이 더 부드럽고, 객체의 스케일이 정확하며, 목표 궤적에 급격한 회전이나 큰 변환이 포함될 때 아티팩트가 감소함을 보여줍니다.

Practical Implications

Film & VFX pipelines은 이제 단일 사전 학습된 생성기를 사용하고 비용이 많이 드는 모션 캡처 세션 없이 정확한 카메라 리그에 맞게 미세 조정할 수 있습니다.
AR/VR content creation은 사용자의 머리 자세가 변할 때 360° 또는 1인칭 영상의 신뢰할 수 있는 재렌더링을 통해 몰입감을 향상시킵니다.
Robotics and autonomous driving 시뮬레이션은 실제 카메라 동작을 반영한 훈련 비디오를 생성하여 도메인 랜덤화를 개선합니다.
Developer‑friendly workflow – 이 방법은 짝이 없는 실제 비디오와 합성 궤적만 필요하므로 팀이 최소한의 데이터 수집 비용으로 Geo‑Align을 기존 데이터 증강 파이프라인에 통합할 수 있습니다.

제한 사항 및 향후 작업

metric‑3D 추정기는 여전히 고동적인 장면(빠른 모션 블러, 낮은 텍스처)에서 어려움을 겪으며, 이는 보상 신호를 저하시킬 수 있습니다.
RL 훈련은 표준 지도 학습 파인튜닝보다 계산 비용이 더 많이 들며, 세심한 하이퍼파라미터 튜닝과 더 긴 수렴 시간이 필요합니다.
현재 파이프라인은 카메라 내부 파라미터가 알려진 상황을 전제로 합니다; 완전히 알 수 없는 내부 파라미터로 확장하면 적용 범위가 넓어집니다.
향후 연구에서는 추정기와 생성기의 공동 학습을 탐구하거나, 자기 지도 깊이 단서를 도입하여 합성 궤적에 대한 의존도를 더욱 감소시킬 수 있습니다.

저자

Zizun Li
Haoyu Guo
Runzhe Teng
Chunhua Shen
Tong He

논문 정보

arXiv ID: 2605.23903v1
카테고리: cs.CV
발행일: 2026년 5월 22일
PDF: Download PDF

[Paper] Geo-Align: Metric Geometry Reward를 통한 비디오 생성 정렬

Overview

핵심 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] PiD: 빠르고 고해상도 잠재 디코딩 with Pixel Diffusion

[Paper] ETCHR: 편집을 통한 명확화 및 추론 활용

[Paper] 활성화에서 인과성으로: 인간 뇌에서 Causal Visual Representations 발견

[Paper] 좋은 토큰 헌팅: 비주얼 지오메트리 트랜스포머를 위한 토큰 선택 히치하이커스 가이드