衡量关键:图像生成评估的客观指标

发布: (2025年12月4日 GMT+8 02:05)
7 min read
原文: Dev.to

Source: Dev.to

引言

使用最先进的模型生成高质量视觉内容正变得日益容易。开源模型可以在笔记本电脑上运行,云服务能够在几秒钟内将文本转化为图像。这些模型已经在广告、游戏、时尚和科学等行业掀起变革。

但生成图像只是容易的一步。判断它们的质量却要困难得多。人工反馈慢、成本高、存在偏见且常常不一致。此外,质量有许多方面:创意、真实感和风格并不总是相互匹配。提升其中一项可能会损害另一项。

因此我们需要明确、客观的指标来捕捉质量、连贯性和原创性。下面我们将探讨评估图像质量和使用 Pruna 比较模型的方法,而不仅仅是问“看起来酷吗?”。

指标概览

对评估指标进行分类没有唯一正确的方式,因为一个指标可以根据其使用场景和评估数据属于多个类别。在我们的仓库中,所有质量指标都可以在两种模式下计算:

  • 单模型模式 – 通过将生成的图像与输入参考或真实图像进行比较来评估模型,为每个模型产生一个分数。
  • 成对模式 – 直接比较两个模型各自生成的图像,产生一个用于两模型之间的比较分数。

这种灵活性既支持绝对评估(单独评估每个模型),也支持相对评估(模型之间的直接比较)。

在评估模式之上,按评估标准对指标进行划分也很有意义。我们的指标分为两个大类:

  • 效率指标 – 在推理过程中测量速度、内存使用、碳排放、能耗等。(此处省略详细讨论;更多内容请参见我们的文档。)
  • 质量指标 – 测量生成图像的内在质量以及与预期提示或参考的对齐程度。包括:
    • 分布对齐 – 生成图像与真实世界分布的相似程度。
    • 提示对齐 – 生成图像与其对应提示的语义相似度。
    • 感知对齐 – 生成图像与参考图像之间的像素级或感知相似度。

质量指标汇总

指标衡量内容类别取值范围(↑ 越高更好 / ↓ 越低更好)局限性
FID与真实图像的分布相似度分布对齐0 → ∞ (↓)假设高斯分布,需要大规模数据集,依赖代理模型
CMMDCLIP 空间的分布相似度分布对齐0 → ∞ (↓)核函数选择影响结果,依赖代理模型
CLIPScore图像‑文本对齐提示对齐0 → 100 (↑)对图像质量不敏感,依赖代理模型
PSNR像素级相似度感知对齐0 → ∞ (↑)与人类感知不完全对应
SSIM结构相似度感知对齐–1 → 1 (↑)对小幅输入变化可能不稳定
LPIPS感知相似度感知对齐0 → 1 (↓)依赖代理模型

分布对齐指标

分布对齐指标衡量生成图像与真实世界数据分布的接近程度,比较低维和高维特征。在成对模式下,它们比较不同模型的输出,以产生一个反映相对图像质量的单一分数。

生成的图像与真实图像非常相似,分布对齐良好,暗示质量较好。

生成的图像明显偏离,分布差异显著,指标捕捉到这种不匹配。

Fréchet Inception Distance (FID)

FID(原文链接)是评估 AI 生成图像真实度最流行的指标之一。它通过比较参考图像(如真实图像)与模型生成图像的特征分布来工作。

工作原理

  1. 将真实图像和生成图像都送入预训练的代理模型(通常是 Inception v3)。
  2. 模型将每张图像转换为特征嵌入。
  3. 假设每个集合的嵌入服从高斯分布。
  4. 计算两个高斯分布之间的距离;距离越小,效果越好。

FID 分数越低,说明生成图像与真实图像越相似,图像质量越高。

数学公式

$$ \text{FID} = |\mu_r - \mu_g|^2 + \operatorname{Tr}!\bigl(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2}\bigr) $$

其中

  • ((\mu_r, \Sigma_r)) 为真实图像特征的均值和协方差,
  • ((\mu_g, \Sigma_g)) 为生成图像特征的均值和协方差,
  • (\operatorname{Tr}(\cdot)) 表示矩阵的迹,
  • ((\Sigma_r \Sigma_g)^{1/2}) 为协方差矩阵的几何均值(矩阵平方根)。

Clip Maximum‑Mean‑Discrepancy (CMMD)

CMMD(原文链接)使用预训练 CLIP 模型的嵌入,而非 Inception 特征,来衡量生成图像与真实图像的接近程度。

工作原理

  1. 将真实图像和生成图像都送入预训练的 CLIP 模型,获取特征嵌入。
  2. 对嵌入不作高斯假设。
  3. 采用核函数(通常为 RBF)在最大均值差异(MMD)框架下比较两种分布。

CMMD 分数越低,说明生成图像的特征分布与真实图像的特征分布越相似,图像质量越好。

数学公式

$$ \text{CMMD} = \mathbb{E}!\bigl[ k(\phi(x_r), \phi(x_r’)) \bigr] + \mathbb{E}!\bigl[ k(\phi(x_g), \phi(x_g’)) \bigr] - 2,\mathbb{E}!\bigl[ k(\phi(x_r), \phi(x_g)) \bigr] $$

其中

  • (\phi(\cdot)) 表示 CLIP 的嵌入函数,
  • (k(\cdot,\cdot)) 为核函数(如 RBF),
  • 期望取自真实样本对 ((x_r, x_r’)) 与生成样本对 ((x_g, x_g’))。
Back to Blog

相关文章

阅读更多 »