[Paper] 양방향 Normalizing Flow: 데이터에서 노이즈로 그리고 다시

발행: (2025년 12월 12일 오전 03:59 GMT+9)
7 min read
원문: arXiv

Source: arXiv - 2512.10953v1

Overview

논문 “Bidirectional Normalizing Flow: From Data to Noise and Back” 은 정확한 해석적 역함수(inverse)의 오래된 요구사항을 버리는 새로운 NF(정규화 흐름) 생성 모델 학습 방식을 제안한다. 노이즈→데이터 매핑을 근사하는 모델을 학습함으로써, 저자들은 이미지 품질을 높이고 ImageNet에서 최대 100배에 달하는 샘플링 속도 향상을 달성했으며, 학습 파이프라인은 간단하고 유연하게 유지한다.

Key Contributions

  • Bidirectional Normalizing Flow (BiFlow): 전방(데이터→노이즈)과 역(노이즈→데이터) 방향을 별도로 학습하는 프레임워크를 도입한다. 이를 통해 역은 엄격한 해석적 역함수가 아니라 근사 학습 모델이 될 수 있다.
  • Flexible loss design: 역패스에서 정확한 Jacobian determinant가 필요 없게 하여, 재구성 + 적대적 항과 같은 풍부한 목적 함수를 사용할 수 있다.
  • Architectural freedom: 최신 Transformer 기반 및 autoregressive 구성 요소를 지원하며, 기존 NF 변형(TARFlow 등)에서 발생하던 인과적 디코딩 병목 현상에 얽매이지 않는다.
  • Empirical breakthrough: ImageNet‑64에서 BiFlow는 NF 기반 생성기 중 최첨단 점수를 기록하고, 1‑NFE(단일 평가) 방식과 경쟁하거나 이를 능가하면서도 샘플링 속도가 두 자릿수(≈100배) 빠르다.
  • Open‑source implementation: 코드와 사전 학습 체크포인트를 공개해 재현성과 downstream 적용을 촉진한다.

Methodology

  1. Forward Flow (Encoder‑like) – 기존의 가역 네트워크 (f_\theta)가 이미지 (x)를 잠재 코드 (z = f_\theta(x)) 로 매핑한다. 이 부분은 정확한 가역성을 유지해 변화량 공식(change‑of‑variables)으로 likelihood를 계산한다.
  2. Bidirectional Reverse Model (Decoder‑like) – 정확한 역함수 (f_\theta^{-1}) 대신, 별도 신경망 (g_\phi)를 학습시켜 잠재 노이즈 (z)를 데이터 공간으로 복원한다. (g_\phi)의 손실은 다음을 결합한다:
    • Reconstruction loss (|g_\phi(z) - x|_2) (또는 perceptual loss) – 재현성을 촉진.
    • Adversarial or score‑matching terms – 시각적 품질을 선명하게.
    • KL regularization – 잠재 분포를 단순 prior(예: Gaussian)와 가깝게 유지.
  3. Joint Training – 전방과 역 모델을 독립적인 목적 함수로 동시에 최적화한다. 전방은 정확한 density estimation에, 역은 고품질 합성에 특화될 수 있다.
  4. Sampling – 잠재 (z \sim \mathcal{N}(0, I)) 를 샘플링한 뒤 학습된 디코더 (g_\phi) 로 전달한다. 반복적인 역연산이나 autoregressive 디코딩이 필요 없으며, 이 때문에 큰 속도 향상이 발생한다.

Results & Findings

DatasetMetric (e.g., FID)Sampling Speed (samples/sec)Comparison
ImageNet‑64~9.2 (NF 중 최첨단)≈ 200 (≈ 100× faster than TARFlow)기존 NF 베이스라인을 능가, 1‑NFE GAN과 동등
CIFAR‑10~3.1 FID≈ 1 k samples/sec많은 단계가 필요한 diffusion 모델과 경쟁력 있음
  • Quality: 시각적 검토 결과, 인과적 디코딩 NF 변형보다 텍스처가 더 선명하고 아티팩트가 적다.
  • Speed: 역 모델이 feed‑forward 네트워크이므로 샘플링은 사실상 한 번의 전방 패스만 필요해 순차적 디코딩 병목이 사라진다.
  • Ablation: 적대적 항을 제거하면 FID가 약 0.8 상승해 성능 저하를 확인할 수 있다. 정확한 역함수를 사용하면 속도는 크게 떨어지고 품질은 크게 개선되지 않는다.

Practical Implications

  • Fast high‑fidelity generation: 개발자는 이제 NF 기반 생성기를 실시간 이미지 합성, 데이터 증강 파이프라인 등 지연 시간이 중요한 환경에 배포할 수 있다.
  • Modular architecture: 역 모델이 독립적이므로 Vision Transformer, ConvNet 등 다양한 디코더 설계를 자유롭게 실험할 수 있다.
  • Hybrid systems: BiFlow는 정확한 likelihood를 제공하는 전방 흐름을 확률적 추론에 활용하고, 빠른 디코더를 렌더링에 사용해 조건부 생성, 압축, 역그래픽스 등 downstream 작업과 결합 가능하다.
  • Lower compute budget: 두 자릿수 속도 향상은 추론 시 GPU 사용 시간을 크게 줄여 NF 모델을 프로덕션 워크로드에 더 비용 효율적으로 만든다.

Limitations & Future Work

  • Exact likelihood vs. approximate reverse: 전방 흐름은 정확한 밀도를 제공하지만 역 모델은 근사이므로, 정확한 가역성이 필요한 작업(예: 정확한 posterior 샘플링)에서는 이론적 보장이 제한될 수 있다.
  • Training complexity: 이질적인 손실을 가진 두 네트워크를 동시에 최적화하는 과정은 하이퍼파라미터에 민감하며, 고해상도로 확장할 때 불안정성이 발생할 수 있다.
  • Extension to conditional settings: 현재는 무조건적 이미지 생성에 초점을 맞추고 있어, 텍스트‑투‑이미지나 클래스‑조건부 생성 등으로 확장하는 연구가 필요하다.
  • Further architectural exploration: 보다 표현력이 풍부한 prior(예: 계층적 latent)와 최신 score‑based diffusion 기법과의 통합을 통해 두 패러다임의 장점을 결합하는 방향을 제안한다.

Authors

  • Yiyang Lu
  • Qiao Sun
  • Xianbang Wang
  • Zhicheng Jiang
  • Hanhong Zhao
  • Kaiming He

Paper Information

  • arXiv ID: 2512.10953v1
  • Categories: cs.LG, cs.CV
  • Published: December 11, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »