[Paper] GenArena:我们如何实现对视觉生成任务的人类对齐评估?
发布: (2026年2月6日 GMT+8 02:52)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.06013v1
请提供您希望翻译的具体文本内容,我会按照要求将其翻译成简体中文并保留原有的格式。
Overview
论文 GenArena 解决了计算机视觉研究中的一个紧迫问题:如何评估现代视觉生成模型(例如文本到图像、图像修复、视频合成)的输出,使其真正反映人类判断。作者展示了广泛使用的“绝对点对点评分”方法——即模型为每张生成图像分配单一质量分数——在稳定性和与人类一致性方面表现不佳。通过转向两两比较框架,他们实现了与人类排名的显著更高相关性,甚至让开源模型在基准排行榜上击败了专有巨头。
关键贡献
- 对逐点评分的系统性批判 – 实证表明绝对分数噪声大、不同运行之间不一致,并且与人类感知的相关性差。
- GenArena 框架 – 一个统一的、任务无关的评估流水线,使用成对比较(A vs. B)而非单图评分。
- 开源优势 – 通过成对协议,展示了免费模型在多个视觉生成基准上可以超越顶级商业系统。
- 大规模验证 – 与人工整理的 LMArena 排行榜实现 Spearman 相关系数 0.86——相较于逐点方法的 0.36 相关系数,提升了 20 % 的绝对值。
- 全面基准套件 – 将 GenArena 应用于广泛任务(文本到图像、图像编辑、视频生成等),为社区提供即用型、自动化的评估标准。
方法论
- 问题表述 – 将评估视为排序问题:给定同一提示的两个生成输出,决定哪一个看起来更真实或更好地满足提示。
- 成对判断模型 – 对现成的视觉语言模型(VLM)进行微调,以预测二元偏好(A > B 或 B > A)。模型接收提示、两幅图像,并输出每个方向的置信分数。
- 聚合为全局排序 – 将成对结果输入 Bradley‑Terry 或 Mallows 模型,以推断在众多提示下每个系统的一致整体分数,消除点式评分中常见的随机方差。
- 人工真实值收集 – 对一部分提示进行众包评估,构建金标准排名(LMArena 排行榜),作为相关性分析的参考。
- 基准测试流水线 – 对数十个最先进的生成器运行相同的成对评估器,生成可复现的排行榜。
该方法刻意保持轻量:复用现有 VLM(如 CLIP、BLIP),无需为每个新模型或任务进行昂贵的人类标注。
结果与发现
| 评估方法 | 与 LMArena 的 Spearman 相关系数 | 相对增益(相对于 pointwise) |
|---|---|---|
| Pointwise scoring (baseline) | 0.36 | – |
| GenArena pairwise (open‑source VLM) | 0.86 | +138 % |
| Proprietary top‑tier model (pointwise) | 0.48 | – |
| Proprietary top‑tier model (pairwise) | 0.79 | – |
- 稳定性:重新运行 pairwise 评估器时,排名的方差小于 1 %,而 pointwise 分数在不同随机种子下波动超过 10 %。
- 开源优势:使用 GenArena 评判时,Stable Diffusion 2.1 和 DeepFloyd‑IF 等模型在相同提示下的表现超越商业 API(如 DALL·E 3)。
- 任务通用性:同一 pairwise 评估器可在图像生成、编辑以及短视频合成等任务中直接使用,无需任务特定的微调。
Practical Implications
- 更可靠的模型选择 – 开发者可以信赖 GenArena 排行榜,为产品(例如 UI 原型工具、游戏资产流水线)挑选最佳生成器,而无需昂贵的人类研究。
- 加速研发周期 – 由于评估完全自动化,团队可以在模型架构或提示工程上迭代,并获得即时、符合人类偏好的反馈。
- 开源民主化 – 企业可以使用免费模型实现“最先进”的视觉生成质量,降低对昂贵专有 API 的依赖。
- 竞赛标准化 – GenArena 提供可复现的跨任务度量,能够取代目前许多视觉生成挑战中使用的碎片化点对点评分。
- 与 CI/CD 集成 – 成对评估器可以包装为持续集成流水线中的测试步骤,提前标记视觉保真度的回归。
限制与未来工作
- 对 VLM 质量的依赖 – 成对判断会继承底层视觉语言模型的偏差;对视觉概念的误解可能导致排序偏斜。
- 成对比较的可扩展性 – 通过高效抽样(例如锦标赛赛制)可以保持比较次数在可管理范围,但极大规模的模型套件仍可能产生不可忽视的计算成本。
- 提示多样性 – 基准目前聚焦于英文提示;扩展到多语言或高度领域特定的提示可能需要额外的微调。
- 超越美学的人类对齐 – 当前评估侧重于视觉真实感和提示遵循度;未来工作可以加入更高层次的标准,如创意性或伦理考量。
作者建议探索将成对判断与轻量级点式线索相结合的混合度量,并研究如何将 GenArena 适配于新兴模态,如 3‑D 资产生成和交互式视觉代理。
作者
- Ruihang Li
- Leigang Qu
- Jingxu Zhang
- Dongnan Gui
- Mengde Xu
- Xiaosong Zhang
- Han Hu
- Wenjie Wang
- Jiaqi Wang
论文信息
- arXiv ID: 2602.06013v1
- 分类: cs.CV, cs.AI
- 出版时间: 2026年2月5日
- PDF: 下载 PDF