중요한 것을 측정하기: 이미지 생성 평가를 위한 객관적 메트릭

발행: (2025년 12월 4일 오전 03:05 GMT+9)
8 min read
원문: Dev.to

Source: Dev.to

Introduction

최신 모델을 사용해 고품질 비주얼을 생성하는 것이 점점 더 쉬워지고 있습니다. 오픈소스 모델은 노트북에서도 실행되고, 클라우드 서비스는 텍스트를 몇 초 만에 이미지로 변환합니다. 이러한 모델은 이미 광고, 게임, 패션, 과학 등 다양한 산업을 재편하고 있습니다.

하지만 이미지를 만드는 것이 쉬운 일입니다. 그 품질을 판단하는 것이 훨씬 어렵습니다. 인간 피드백은 느리고, 비용이 많이 들며, 편향될 수 있고, 일관성이 부족합니다. 게다가 품질에는 창의성, 사실성, 스타일 등 여러 측면이 있어 서로 충돌하기도 합니다. 한 요소를 개선하면 다른 요소가 손상될 수 있습니다.

따라서 품질, 일관성, 독창성을 포착할 수 있는 명확하고 객관적인 지표가 필요합니다. 아래에서는 이미지 품질을 평가하고 모델을 비교하기 위한 방법을 **Pruna**와 함께 살펴봅니다. 단순히 “멋져 보이는가?”를 묻는 수준을 넘어서는 평가를 목표로 합니다.

Metrics Overview

평가 지표를 한 가지 방식으로만 분류할 수는 없습니다. 지표는 사용 방식과 평가 대상 데이터에 따라 여러 카테고리에 속할 수 있습니다. 우리 저장소에서는 모든 품질 지표를 두 가지 모드로 계산할 수 있습니다:

  • Single mode – 생성된 이미지를 입력 레퍼런스 또는 정답 이미지와 비교하여 모델당 하나의 점수를 산출합니다.
  • Pairwise mode – 두 모델이 만든 이미지를 직접 비교해 두 모델에 대한 단일 비교 점수를 산출합니다.

이 유연성 덕분에 절대 평가(각 모델을 개별적으로 평가)와 상대 평가(모델 간 직접 비교) 모두가 가능합니다.

평가 모드 외에도 지표를 평가 기준에 따라 생각해 보는 것이 유용합니다. 우리의 지표는 크게 두 가지 범주로 나뉩니다:

  • Efficiency Metrics – 추론 시 속도, 메모리 사용량, 탄소 배출량, 에너지 소비 등을 측정합니다. (자세한 논의는 생략합니다; 자세한 내용은 문서를 참고하세요.)
  • Quality Metrics – 생성된 이미지의 내재적 품질과 의도된 프롬프트 또는 레퍼런스와의 정렬 정도를 측정합니다. 여기에는 다음이 포함됩니다:
    • Distribution Alignment – 생성 이미지가 실제 세계 분포와 얼마나 유사한가.
    • Prompt Alignment – 생성 이미지와 의도된 프롬프트 사이의 의미적 유사성.
    • Perceptual Alignment – 생성 이미지와 레퍼런스 이미지 사이의 픽셀 수준 또는 지각적 유사성.

Quality Metrics Summary

MetricMeasuresCategoryRange (↑ higher is better / ↓ lower is better)Limitations
FIDDistributional similarity to real imagesDistribution Alignment0 → ∞ (↓)Assumes Gaussianity, requires a large dataset, depends on a surrogate model
CMMDCLIP‑space distributional similarityDistribution Alignment0 → ∞ (↓)Kernel choice affects results, depends on a surrogate model
CLIPScoreImage‑text alignmentPrompt Alignment0 → 100 (↑)Insensitive to image quality, depends on a surrogate model
PSNRPixel‑wise similarityPerceptual Alignment0 → ∞ (↑)Not well perceptually aligned
SSIMStructural similarityPerceptual Alignment–1 → 1 (↑)Can be unstable for small input variations
LPIPSPerceptual similarityPerceptual Alignment0 → 1 (↓)Depends on a surrogate model

Distribution Alignment Metrics

Distribution alignment metrics는 생성된 이미지가 실제 데이터 분포와 얼마나 가까운지를 측정합니다. 저차원·고차원 특징 모두를 비교합니다. Pairwise mode에서는 서로 다른 모델의 출력을 비교해 상대적인 이미지 품질을 하나의 점수로 나타냅니다.

The generated image closely resembles the real one, and the distributions are well aligned, suggesting good quality.

The generated image is noticeably off, and the distributions differ significantly, which the metric captures as a mismatch.

Fréchet Inception Distance (FID)

FID(여기서 소개)는 AI가 생성한 이미지의 사실성을 평가하는 가장 널리 쓰이는 지표 중 하나입니다. 실제 이미지(레퍼런스)와 모델이 만든 이미지의 특징 분포를 비교합니다.

How it works

  1. 실제 이미지와 생성 이미지를 사전 학습된 대리 모델(보통 Inception v3)에 통과시킵니다.
  2. 모델은 각 이미지를 특징 임베딩으로 변환합니다.
  3. 각 집합의 임베딩이 가우시안 분포를 따른다고 가정합니다.
  4. 두 가우시안 사이의 거리를 측정합니다; 거리가 작을수록 품질이 좋습니다.

FID 점수가 낮을수록 생성 이미지가 실제 이미지와 더 유사하다는 의미이며, 이는 이미지 품질이 높다는 것을 나타냅니다.

Mathematical formulation

$$ \text{FID} = |\mu_r - \mu_g|^2 + \operatorname{Tr}!\bigl(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2}\bigr) $$

where

  • ((\mu_r, \Sigma_r)) are the mean and covariance of real‑image features,
  • ((\mu_g, \Sigma_g)) are the mean and covariance of generated‑image features,
  • (\operatorname{Tr}(\cdot)) denotes the trace of a matrix, and
  • ((\Sigma_r \Sigma_g)^{1/2}) is the matrix square root (geometric mean) of the covariances.

Clip Maximum‑Mean‑Discrepancy (CMMD)

CMMD(여기서 소개)는 Inception 특징 대신 사전 학습된 CLIP 모델의 임베딩을 사용해 생성 이미지와 실제 이미지 간의 유사성을 측정합니다.

How it works

  1. 실제 이미지와 생성 이미지를 사전 학습된 CLIP 모델에 통과시켜 특징 임베딩을 얻습니다.
  2. 임베딩에 대해 가우시안 가정을 하지 않습니다.
  3. 커널 함수(보통 RBF)를 적용해 Maximum Mean Discrepancy(MMD) 프레임워크로 두 분포를 비교합니다.

CMMD 점수가 낮을수록 생성 이미지의 특징 분포가 실제 이미지와 더 유사하다는 의미이며, 이는 이미지 품질이 높음을 나타냅니다.

Mathematical formulation

$$ \text{CMMD} = \mathbb{E}!\bigl[ k(\phi(x_r), \phi(x_r’)) \bigr] + \mathbb{E}!\bigl[ k(\phi(x_g), \phi(x_g’)) \bigr] - 2,\mathbb{E}!\bigl[ k(\phi(x_r), \phi(x_g)) \bigr] $$

where

  • (\phi(\cdot)) denotes the CLIP embedding function,
  • (k(\cdot,\cdot)) is a kernel (e.g., RBF), and
  • the expectations are taken over pairs of real ((x_r, x_r’)) and generated ((x_g, x_g’)) samples.
Back to Blog

관련 글

더 보기 »