[Paper] GenArena:我们如何实现对视觉生成任务的人类对齐评估?

发布: (2026年2月6日 GMT+8 02:52)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.06013v1

请提供您希望翻译的具体文本内容,我会按照要求将其翻译成简体中文并保留原有的格式。

Overview

论文 GenArena 解决了计算机视觉研究中的一个紧迫问题:如何评估现代视觉生成模型(例如文本到图像、图像修复、视频合成)的输出,使其真正反映人类判断。作者展示了广泛使用的“绝对点对点评分”方法——即模型为每张生成图像分配单一质量分数——在稳定性和与人类一致性方面表现不佳。通过转向两两比较框架,他们实现了与人类排名的显著更高相关性,甚至让开源模型在基准排行榜上击败了专有巨头。

关键贡献

  • 对逐点评分的系统性批判 – 实证表明绝对分数噪声大、不同运行之间不一致,并且与人类感知的相关性差。
  • GenArena 框架 – 一个统一的、任务无关的评估流水线,使用成对比较(A vs. B)而非单图评分。
  • 开源优势 – 通过成对协议,展示了免费模型在多个视觉生成基准上可以超越顶级商业系统。
  • 大规模验证 – 与人工整理的 LMArena 排行榜实现 Spearman 相关系数 0.86——相较于逐点方法的 0.36 相关系数,提升了 20 % 的绝对值
  • 全面基准套件 – 将 GenArena 应用于广泛任务(文本到图像、图像编辑、视频生成等),为社区提供即用型、自动化的评估标准。

方法论

  1. 问题表述 – 将评估视为排序问题:给定同一提示的两个生成输出,决定哪一个看起来更真实或更好地满足提示。
  2. 成对判断模型 – 对现成的视觉语言模型(VLM)进行微调,以预测二元偏好(A > B 或 B > A)。模型接收提示、两幅图像,并输出每个方向的置信分数。
  3. 聚合为全局排序 – 将成对结果输入 Bradley‑TerryMallows 模型,以推断在众多提示下每个系统的一致整体分数,消除点式评分中常见的随机方差。
  4. 人工真实值收集 – 对一部分提示进行众包评估,构建金标准排名(LMArena 排行榜),作为相关性分析的参考。
  5. 基准测试流水线 – 对数十个最先进的生成器运行相同的成对评估器,生成可复现的排行榜。

该方法刻意保持轻量:复用现有 VLM(如 CLIP、BLIP),无需为每个新模型或任务进行昂贵的人类标注。

结果与发现

评估方法与 LMArena 的 Spearman 相关系数相对增益(相对于 pointwise)
Pointwise scoring (baseline)0.36
GenArena pairwise (open‑source VLM)0.86+138 %
Proprietary top‑tier model (pointwise)0.48
Proprietary top‑tier model (pairwise)0.79
  • 稳定性:重新运行 pairwise 评估器时,排名的方差小于 1 %,而 pointwise 分数在不同随机种子下波动超过 10 %。
  • 开源优势:使用 GenArena 评判时,Stable Diffusion 2.1 和 DeepFloyd‑IF 等模型在相同提示下的表现超越商业 API(如 DALL·E 3)。
  • 任务通用性:同一 pairwise 评估器可在图像生成、编辑以及短视频合成等任务中直接使用,无需任务特定的微调。

Practical Implications

  • 更可靠的模型选择 – 开发者可以信赖 GenArena 排行榜,为产品(例如 UI 原型工具、游戏资产流水线)挑选最佳生成器,而无需昂贵的人类研究。
  • 加速研发周期 – 由于评估完全自动化,团队可以在模型架构或提示工程上迭代,并获得即时、符合人类偏好的反馈。
  • 开源民主化 – 企业可以使用免费模型实现“最先进”的视觉生成质量,降低对昂贵专有 API 的依赖。
  • 竞赛标准化 – GenArena 提供可复现的跨任务度量,能够取代目前许多视觉生成挑战中使用的碎片化点对点评分。
  • 与 CI/CD 集成 – 成对评估器可以包装为持续集成流水线中的测试步骤,提前标记视觉保真度的回归。

限制与未来工作

  • 对 VLM 质量的依赖 – 成对判断会继承底层视觉语言模型的偏差;对视觉概念的误解可能导致排序偏斜。
  • 成对比较的可扩展性 – 通过高效抽样(例如锦标赛赛制)可以保持比较次数在可管理范围,但极大规模的模型套件仍可能产生不可忽视的计算成本。
  • 提示多样性 – 基准目前聚焦于英文提示;扩展到多语言或高度领域特定的提示可能需要额外的微调。
  • 超越美学的人类对齐 – 当前评估侧重于视觉真实感和提示遵循度;未来工作可以加入更高层次的标准,如创意性或伦理考量。

作者建议探索将成对判断与轻量级点式线索相结合的混合度量,并研究如何将 GenArena 适配于新兴模态,如 3‑D 资产生成和交互式视觉代理。

作者

  • Ruihang Li
  • Leigang Qu
  • Jingxu Zhang
  • Dongnan Gui
  • Mengde Xu
  • Xiaosong Zhang
  • Han Hu
  • Wenjie Wang
  • Jiaqi Wang

论文信息

  • arXiv ID: 2602.06013v1
  • 分类: cs.CV, cs.AI
  • 出版时间: 2026年2月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……