衡量关键:图像生成评估的客观指标
Source: Dev.to
引言
使用最先进的模型生成高质量视觉内容正变得日益容易。开源模型可以在笔记本电脑上运行,云服务能够在几秒钟内将文本转化为图像。这些模型已经在广告、游戏、时尚和科学等行业掀起变革。
但生成图像只是容易的一步。判断它们的质量却要困难得多。人工反馈慢、成本高、存在偏见且常常不一致。此外,质量有许多方面:创意、真实感和风格并不总是相互匹配。提升其中一项可能会损害另一项。
因此我们需要明确、客观的指标来捕捉质量、连贯性和原创性。下面我们将探讨评估图像质量和使用 Pruna 比较模型的方法,而不仅仅是问“看起来酷吗?”。
指标概览
对评估指标进行分类没有唯一正确的方式,因为一个指标可以根据其使用场景和评估数据属于多个类别。在我们的仓库中,所有质量指标都可以在两种模式下计算:
- 单模型模式 – 通过将生成的图像与输入参考或真实图像进行比较来评估模型,为每个模型产生一个分数。
- 成对模式 – 直接比较两个模型各自生成的图像,产生一个用于两模型之间的比较分数。
这种灵活性既支持绝对评估(单独评估每个模型),也支持相对评估(模型之间的直接比较)。
在评估模式之上,按评估标准对指标进行划分也很有意义。我们的指标分为两个大类:
- 效率指标 – 在推理过程中测量速度、内存使用、碳排放、能耗等。(此处省略详细讨论;更多内容请参见我们的文档。)
- 质量指标 – 测量生成图像的内在质量以及与预期提示或参考的对齐程度。包括:
- 分布对齐 – 生成图像与真实世界分布的相似程度。
- 提示对齐 – 生成图像与其对应提示的语义相似度。
- 感知对齐 – 生成图像与参考图像之间的像素级或感知相似度。
质量指标汇总
| 指标 | 衡量内容 | 类别 | 取值范围(↑ 越高更好 / ↓ 越低更好) | 局限性 |
|---|---|---|---|---|
| FID | 与真实图像的分布相似度 | 分布对齐 | 0 → ∞ (↓) | 假设高斯分布,需要大规模数据集,依赖代理模型 |
| CMMD | CLIP 空间的分布相似度 | 分布对齐 | 0 → ∞ (↓) | 核函数选择影响结果,依赖代理模型 |
| CLIPScore | 图像‑文本对齐 | 提示对齐 | 0 → 100 (↑) | 对图像质量不敏感,依赖代理模型 |
| PSNR | 像素级相似度 | 感知对齐 | 0 → ∞ (↑) | 与人类感知不完全对应 |
| SSIM | 结构相似度 | 感知对齐 | –1 → 1 (↑) | 对小幅输入变化可能不稳定 |
| LPIPS | 感知相似度 | 感知对齐 | 0 → 1 (↓) | 依赖代理模型 |
分布对齐指标
分布对齐指标衡量生成图像与真实世界数据分布的接近程度,比较低维和高维特征。在成对模式下,它们比较不同模型的输出,以产生一个反映相对图像质量的单一分数。


Fréchet Inception Distance (FID)
FID(原文链接)是评估 AI 生成图像真实度最流行的指标之一。它通过比较参考图像(如真实图像)与模型生成图像的特征分布来工作。
工作原理
- 将真实图像和生成图像都送入预训练的代理模型(通常是 Inception v3)。
- 模型将每张图像转换为特征嵌入。
- 假设每个集合的嵌入服从高斯分布。
- 计算两个高斯分布之间的距离;距离越小,效果越好。
FID 分数越低,说明生成图像与真实图像越相似,图像质量越高。
数学公式
$$ \text{FID} = |\mu_r - \mu_g|^2 + \operatorname{Tr}!\bigl(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2}\bigr) $$
其中
- ((\mu_r, \Sigma_r)) 为真实图像特征的均值和协方差,
- ((\mu_g, \Sigma_g)) 为生成图像特征的均值和协方差,
- (\operatorname{Tr}(\cdot)) 表示矩阵的迹,
- ((\Sigma_r \Sigma_g)^{1/2}) 为协方差矩阵的几何均值(矩阵平方根)。
Clip Maximum‑Mean‑Discrepancy (CMMD)
CMMD(原文链接)使用预训练 CLIP 模型的嵌入,而非 Inception 特征,来衡量生成图像与真实图像的接近程度。
工作原理
- 将真实图像和生成图像都送入预训练的 CLIP 模型,获取特征嵌入。
- 对嵌入不作高斯假设。
- 采用核函数(通常为 RBF)在最大均值差异(MMD)框架下比较两种分布。
CMMD 分数越低,说明生成图像的特征分布与真实图像的特征分布越相似,图像质量越好。
数学公式
$$ \text{CMMD} = \mathbb{E}!\bigl[ k(\phi(x_r), \phi(x_r’)) \bigr] + \mathbb{E}!\bigl[ k(\phi(x_g), \phi(x_g’)) \bigr] - 2,\mathbb{E}!\bigl[ k(\phi(x_r), \phi(x_g)) \bigr] $$
其中
- (\phi(\cdot)) 表示 CLIP 的嵌入函数,
- (k(\cdot,\cdot)) 为核函数(如 RBF),
- 期望取自真实样本对 ((x_r, x_r’)) 与生成样本对 ((x_g, x_g’))。