[Paper] Rectified Flow 재구성을 통한 Image-to-Image Translation 향상

발행: 3일 전 (2026년 3월 21일 AM 02:59 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2603.20186v1

개요

이 논문은 **Image‑to‑Image Rectified Flow Reformulation (I2I‑RFR)**이라는 경량 플러그인을 소개한다. 이 플러그인은 기존의 표준 이미지‑투‑이미지(I2I) 회귀 네트워크를 연속‑시간 전송 모델로 변환한다. 네트워크에 일반 입력과 함께 실제 정답의 노이즈가 섞인 버전을 제공하고, 시간 가중 픽셀 손실로 학습함으로써, 저자들은 rectified flow를 얻는다. 이 흐름은 추론 시 몇 단계의 ODE 솔버만으로 정제할 수 있어, 훈련 파이프라인을 전면 개편하지 않고도 시각적 충실도를 높인다.

주요 기여

Plug‑in reformulation: 잡다한 오프‑더‑쉘프 I2I 백본(예: UNet, ResNet)과도 호환되며, 노이즈가 섞인 타깃을 담은 추가 채널을 단순히 연결하기만 하면 됩니다.
Rectified‑flow interpretation: 수정된 손실이 속도장을 유도한다는 것을 보여주어, 테스트 시 일반 미분 방정식(ODE) 솔버를 사용한 점진적 정제가 가능하도록 합니다.
Minimal overhead: 몇 개의 추가 입력 채널과 2–4개의 명시적 솔버 단계만 필요하며, 별도의 생성기, 판별기, 혹은 적대적 손실이 필요 없습니다.
Broad empirical validation: 이미지 변환(낮→밤, 스타일 전이), 비디오 복원(노이즈 제거, 초해상도), 다중 모달 합성 등 다양한 작업에서 일관된 성능 향상을 입증했습니다.
Perceptual quality boost: 세부 보존을 개선하고 순수 회귀 모델에서 흔히 나타나는 과도한 스무딩을 감소시켰으며, 이는 LPIPS, FID 및 사용자 연구를 통해 측정되었습니다.

Methodology

입력 증강
- 기존 I2I 모델은 입력 이미지 x 를 받습니다.
- I2I‑RFR은 정답 y 의 노이즈가 섞인 복사본(예: y + ε, 여기서 ε ~ N(0, σ²))을 추가 채널로 붙여 [x, y + ε] 를 형성합니다.
시간‑재가중 손실
- 각 학습 예제마다 스칼라 t ∈ (0, 1] 를 샘플링합니다.
- 손실은
  $$\mathcal{L}= \frac{1}{t^\alpha}|f(x, y+ε; θ) - y|_1$$
  (또는 L2)이며, 여기서 α는 초기 정제와 후기 정제에 대한 강조 정도를 제어합니다.
- 이 가중치는 네트워크가 t 가 진행됨에 따라 노이즈가 섞인 목표를 깨끗한 목표로 이동시키는 속도장을 학습하도록 합니다.
정정 흐름 & ODE 추론
- 학습된 장은 (\frac{d\mathbf{z}}{dt}=v(\mathbf{z}, t;θ)) 로 해석될 수 있습니다.
- 테스트 시에는 노이즈가 섞인 목표(또는 무작위 추정)에서 시작해 ODE 를 몇 단계 통합합니다(예: Euler 혹은 RK4 사용).
- 각 단계마다 이미지를 정제하여 인공물을 점진적으로 교정하면서 원본 내용을 보존합니다.
학습 파이프라인
- 적대적 손실, 퍼셉추얼 손실, 혹은 추가 네트워크가 필요하지 않습니다.
- 표준 감독 학습 루프에 필요한 유일한 변경은 추가 입력 채널과 t‑재가중입니다.

결과 및 발견

Task (작업)	Backbone	Baseline PSNR / LPIPS	I2I‑RFR PSNR / LPIPS	Δ (지각)
주간‑야간 변환	UNet	22.1 dB / 0.31	22.4 dB / 0.24	+0.07 LPIPS
비디오 노이즈 제거 (DAVIS)	ResNet‑18	31.5 dB / 0.12	31.8 dB / 0.09	+0.03 LPIPS
초고해상도 ×4	EDSR	28.7 dB / 0.18	29.0 dB / 0.14	+0.04 LPIPS
다중모달 스타일 전송	Pix2PixHD	— / 0.42	— / 0.33	+0.09 LPIPS

정성적: 좌우 비교 결과 가장자리 선명도가 높아지고, 텍스처 복원이 개선되며, “색이 빠진” 영역이 감소했습니다.
효율성: 3개의 ODE 스텝을 추가하면 V100 GPU에서 약 15 % 정도 실행 시간이 늘어나지만, GAN 기반 대비 훨씬 저렴합니다.
견고성: 다양한 잡음 수준(σ = 0.01–0.1)과 정적 이미지 및 비디오 프레임 모두에서 성능 향상이 유지되어 방법의 안정성을 보여줍니다.

실용적인 시사점

Easy upgrade path: 이미 회귀 기반 I2I 모델(예: 사진 보정, AR 필터)을 사용하는 기존 프로덕션 파이프라인은 사소한 코드 변경만으로 I2I‑RFR을 채택할 수 있어 모델을 재설계하거나 추가 데이터를 수집할 필요가 없습니다.
Better user experience: 점진적인 정제 과정을 “enhance” 버튼으로 노출하여 디바이스에서 몇 단계의 추가 연산을 수행하게 하면 눈에 띄는 지연 없이 더 높은 품질의 결과를 제공할 수 있습니다.
Reduced reliance on GANs: 팀은 불안정성과 높은 연산 비용을 가진 적대적 학습을 피하면서도 비슷한 수준의 지각적 향상을 달성할 수 있습니다.
Video‑centric workflows: 이 방법은 프레임 단위로 작동하고 몇 단계의 솔버만 추가하므로 실시간 비디오 파이프라인(예: 스트리밍 노이즈 제거, 실시간 업스케일링)에 자연스럽게 통합됩니다.
Potential for hybrid systems: I2I‑RFR은 가벼운 지각 손실과 결합하거나 지식 증류를 통해 더 작은 모델에 적용할 수 있어 품질‑속도 트레이드오프를 유연하게 조절할 수 있습니다.

제한 사항 및 향후 연구

Ground‑truth noise 의 의존성: 현재 공식은 훈련 중에 타깃의 노이즈가 섞인 복사본을 필요로 하는데, 이는 일부 비지도 또는 자체 지도 설정에서는 사용할 수 없을 수 있습니다.
Solver 단계 민감도: 3–4 단계가 경험적으로 잘 작동하지만, 최적 단계 수는 작업마다 달라질 수 있으며 자동 단계 크기 선택은 아직 해결되지 않은 문제입니다.
제한된 다중모달 탐색: 이 방법은 결정론적 회귀를 개선하지만 다양한 출력 모드를 명시적으로 모델링하지는 않는다; 프레임워크를 확장하여 확률적 생성(예: 조건부 확산)을 수행하는 것이 유망한 방향이다.
이론적 보장: 정정‑flow(rectified‑flow) 해석은 직관적이지만, 임의의 백본에 대한 공식적인 수렴 또는 안정성 증명은 부족하다.

향후 연구는 학습된 노이즈 모델 통합, 적응형 ODE 솔버, 또는 I2I‑RFR을 잠재‑공간 샘플링과 결합하여 단순성을 유지하면서 다중모달성을 포착하는 방식으로 이러한 점들을 해결할 수 있다.

저자

Satoshi Iizuka
Shun Okamoto
Kazuhiro Fukui

논문 정보

arXiv ID: 2603.20186v1
카테고리: cs.CV
출판일: 2026년 3월 20일
PDF: PDF 다운로드

[Paper] Rectified Flow 재구성을 통한 Image-to-Image Translation 향상

개요

주요 기여

Methodology

결과 및 발견

실용적인 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] MME-CoF-Pro: 텍스트와 시각적 힌트를 활용한 비디오 생성 모델의 추론 일관성 평가

[Paper] LumosX: 모든 정체성을 그들의 속성과 연결하여 맞춤형 비디오 생성

[Paper] 산불 확산 시나리오: Training-Free Methods를 이용한 Segmentation Diffusion Models의 샘플 다양성 증가

[Paper] MuSteerNet: 비디오에서 관찰‑반응 상호 스티어링을 통한 인간 반응 생성