衡量关键：图像生成评估的客观指标

发布: 2个月前 (2025年12月4日 GMT+8 02:05)

7 分钟阅读

原文: Dev.to

Source: Dev.to

引言

使用最先进的模型生成高质量视觉内容正变得日益容易。开源模型可以在笔记本电脑上运行，云服务能够在几秒钟内将文本转化为图像。这些模型已经在广告、游戏、时尚和科学等行业掀起变革。

但生成图像只是容易的一步。判断它们的质量却要困难得多。人工反馈慢、成本高、存在偏见且常常不一致。此外，质量有许多方面：创意、真实感和风格并不总是相互匹配。提升其中一项可能会损害另一项。

因此我们需要明确、客观的指标来捕捉质量、连贯性和原创性。下面我们将探讨评估图像质量和使用 Pruna 比较模型的方法，而不仅仅是问“看起来酷吗？”。

指标概览

对评估指标进行分类没有唯一正确的方式，因为一个指标可以根据其使用场景和评估数据属于多个类别。在我们的仓库中，所有质量指标都可以在两种模式下计算：

单模型模式 – 通过将生成的图像与输入参考或真实图像进行比较来评估模型，为每个模型产生一个分数。
成对模式 – 直接比较两个模型各自生成的图像，产生一个用于两模型之间的比较分数。

这种灵活性既支持绝对评估（单独评估每个模型），也支持相对评估（模型之间的直接比较）。

在评估模式之上，按评估标准对指标进行划分也很有意义。我们的指标分为两个大类：

效率指标 – 在推理过程中测量速度、内存使用、碳排放、能耗等。（此处省略详细讨论；更多内容请参见我们的文档。）
质量指标 – 测量生成图像的内在质量以及与预期提示或参考的对齐程度。包括：
- 分布对齐 – 生成图像与真实世界分布的相似程度。
- 提示对齐 – 生成图像与其对应提示的语义相似度。
- 感知对齐 – 生成图像与参考图像之间的像素级或感知相似度。

质量指标汇总

指标	衡量内容	类别	取值范围（↑ 越高更好 / ↓ 越低更好）	局限性
FID	与真实图像的分布相似度	分布对齐	0 → ∞ (↓)	假设高斯分布，需要大规模数据集，依赖代理模型
CMMD	CLIP 空间的分布相似度	分布对齐	0 → ∞ (↓)	核函数选择影响结果，依赖代理模型
CLIPScore	图像‑文本对齐	提示对齐	0 → 100 (↑)	对图像质量不敏感，依赖代理模型
PSNR	像素级相似度	感知对齐	0 → ∞ (↑)	与人类感知不完全对应
SSIM	结构相似度	感知对齐	–1 → 1 (↑)	对小幅输入变化可能不稳定
LPIPS	感知相似度	感知对齐	0 → 1 (↓)	依赖代理模型

分布对齐指标

分布对齐指标衡量生成图像与真实世界数据分布的接近程度，比较低维和高维特征。在成对模式下，它们比较不同模型的输出，以产生一个反映相对图像质量的单一分数。

生成的图像与真实图像非常相似，分布对齐良好，暗示质量较好。

生成的图像明显偏离，分布差异显著，指标捕捉到这种不匹配。

Fréchet Inception Distance (FID)

FID（原文链接）是评估 AI 生成图像真实度最流行的指标之一。它通过比较参考图像（如真实图像）与模型生成图像的特征分布来工作。

工作原理

将真实图像和生成图像都送入预训练的代理模型（通常是 Inception v3）。
模型将每张图像转换为特征嵌入。
假设每个集合的嵌入服从高斯分布。
计算两个高斯分布之间的距离；距离越小，效果越好。

FID 分数越低，说明生成图像与真实图像越相似，图像质量越高。

数学公式

$$ \text{FID} = |\mu_r - \mu_g|^2 + \operatorname{Tr}!\bigl(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2}\bigr) $$

其中

((\mu_r, \Sigma_r)) 为真实图像特征的均值和协方差，
((\mu_g, \Sigma_g)) 为生成图像特征的均值和协方差，
(\operatorname{Tr}(\cdot)) 表示矩阵的迹，
((\Sigma_r \Sigma_g)^{1/2}) 为协方差矩阵的几何均值（矩阵平方根）。

Clip Maximum‑Mean‑Discrepancy (CMMD)

CMMD（原文链接）使用预训练 CLIP 模型的嵌入，而非 Inception 特征，来衡量生成图像与真实图像的接近程度。

工作原理

将真实图像和生成图像都送入预训练的 CLIP 模型，获取特征嵌入。
对嵌入不作高斯假设。
采用核函数（通常为 RBF）在最大均值差异（MMD）框架下比较两种分布。

CMMD 分数越低，说明生成图像的特征分布与真实图像的特征分布越相似，图像质量越好。

数学公式

$$ \text{CMMD} = \mathbb{E}!\bigl[ k(\phi(x_r), \phi(x_r’)) \bigr] + \mathbb{E}!\bigl[ k(\phi(x_g), \phi(x_g’)) \bigr] - 2,\mathbb{E}!\bigl[ k(\phi(x_r), \phi(x_g)) \bigr] $$

其中

(\phi(\cdot)) 表示 CLIP 的嵌入函数，
(k(\cdot,\cdot)) 为核函数（如 RBF），
期望取自真实样本对 ((x_r, x_r’)) 与生成样本对 ((x_g, x_g’))。

衡量关键：图像生成评估的客观指标

引言

指标概览

质量指标汇总

分布对齐指标

Fréchet Inception Distance (FID)

工作原理

数学公式

Clip Maximum‑Mean‑Discrepancy (CMMD)

工作原理

数学公式

相关文章

2025 年最佳 AI 背景生成器：即时创建自定义背景

AI时代的设计：小企业如何更快打造大品牌

2025年开发者应该真正尝试的10款ChatGPT替代品

人工智能、机器学习、深度学习和生成式 AI — 通俗易懂