[Paper] GenArena：我们如何实现对视觉生成任务的人类对齐评估？

发布: 3天前 (2026年2月6日 GMT+8 02:52)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.06013v1

请提供您希望翻译的具体文本内容，我会按照要求将其翻译成简体中文并保留原有的格式。

Overview

论文 GenArena 解决了计算机视觉研究中的一个紧迫问题：如何评估现代视觉生成模型（例如文本到图像、图像修复、视频合成）的输出，使其真正反映人类判断。作者展示了广泛使用的“绝对点对点评分”方法——即模型为每张生成图像分配单一质量分数——在稳定性和与人类一致性方面表现不佳。通过转向两两比较框架，他们实现了与人类排名的显著更高相关性，甚至让开源模型在基准排行榜上击败了专有巨头。

关键贡献

对逐点评分的系统性批判 – 实证表明绝对分数噪声大、不同运行之间不一致，并且与人类感知的相关性差。
GenArena 框架 – 一个统一的、任务无关的评估流水线，使用成对比较（A vs. B）而非单图评分。
开源优势 – 通过成对协议，展示了免费模型在多个视觉生成基准上可以超越顶级商业系统。
大规模验证 – 与人工整理的 LMArena 排行榜实现 Spearman 相关系数 0.86——相较于逐点方法的 0.36 相关系数，提升了 20 % 的绝对值。
全面基准套件 – 将 GenArena 应用于广泛任务（文本到图像、图像编辑、视频生成等），为社区提供即用型、自动化的评估标准。

方法论

问题表述 – 将评估视为排序问题：给定同一提示的两个生成输出，决定哪一个看起来更真实或更好地满足提示。
成对判断模型 – 对现成的视觉语言模型（VLM）进行微调，以预测二元偏好（A > B 或 B > A）。模型接收提示、两幅图像，并输出每个方向的置信分数。
聚合为全局排序 – 将成对结果输入 Bradley‑Terry 或 Mallows 模型，以推断在众多提示下每个系统的一致整体分数，消除点式评分中常见的随机方差。
人工真实值收集 – 对一部分提示进行众包评估，构建金标准排名（LMArena 排行榜），作为相关性分析的参考。
基准测试流水线 – 对数十个最先进的生成器运行相同的成对评估器，生成可复现的排行榜。

该方法刻意保持轻量：复用现有 VLM（如 CLIP、BLIP），无需为每个新模型或任务进行昂贵的人类标注。

结果与发现

评估方法	与 LMArena 的 Spearman 相关系数	相对增益（相对于 pointwise）
Pointwise scoring (baseline)	0.36	–
GenArena pairwise (open‑source VLM)	0.86	+138 %
Proprietary top‑tier model (pointwise)	0.48	–
Proprietary top‑tier model (pairwise)	0.79	–

稳定性：重新运行 pairwise 评估器时，排名的方差小于 1 %，而 pointwise 分数在不同随机种子下波动超过 10 %。
开源优势：使用 GenArena 评判时，Stable Diffusion 2.1 和 DeepFloyd‑IF 等模型在相同提示下的表现超越商业 API（如 DALL·E 3）。
任务通用性：同一 pairwise 评估器可在图像生成、编辑以及短视频合成等任务中直接使用，无需任务特定的微调。

Practical Implications

更可靠的模型选择 – 开发者可以信赖 GenArena 排行榜，为产品（例如 UI 原型工具、游戏资产流水线）挑选最佳生成器，而无需昂贵的人类研究。
加速研发周期 – 由于评估完全自动化，团队可以在模型架构或提示工程上迭代，并获得即时、符合人类偏好的反馈。
开源民主化 – 企业可以使用免费模型实现“最先进”的视觉生成质量，降低对昂贵专有 API 的依赖。
竞赛标准化 – GenArena 提供可复现的跨任务度量，能够取代目前许多视觉生成挑战中使用的碎片化点对点评分。
与 CI/CD 集成 – 成对评估器可以包装为持续集成流水线中的测试步骤，提前标记视觉保真度的回归。

限制与未来工作

对 VLM 质量的依赖 – 成对判断会继承底层视觉语言模型的偏差；对视觉概念的误解可能导致排序偏斜。
成对比较的可扩展性 – 通过高效抽样（例如锦标赛赛制）可以保持比较次数在可管理范围，但极大规模的模型套件仍可能产生不可忽视的计算成本。
提示多样性 – 基准目前聚焦于英文提示；扩展到多语言或高度领域特定的提示可能需要额外的微调。
超越美学的人类对齐 – 当前评估侧重于视觉真实感和提示遵循度；未来工作可以加入更高层次的标准，如创意性或伦理考量。

作者建议探索将成对判断与轻量级点式线索相结合的混合度量，并研究如何将 GenArena 适配于新兴模态，如 3‑D 资产生成和交互式视觉代理。

作者

Ruihang Li
Leigang Qu
Jingxu Zhang
Dongnan Gui
Mengde Xu
Xiaosong Zhang
Han Hu
Wenjie Wang
Jiaqi Wang

论文信息

arXiv ID: 2602.06013v1
分类: cs.CV, cs.AI
出版时间: 2026年2月5日
PDF: 下载 PDF

[Paper] GenArena：我们如何实现对视觉生成任务的人类对齐评估？

Overview

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 伪可逆神经网络

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

[论文] CommCP：通过基于LLM的通信与共形预测实现高效多智能体协同

[Paper] 从透视描述预测相机姿态用于空间推理