[Paper] GENIUS：生成式流体智力评估套件

发布: 3天前 (2026年2月12日 GMT+8 02:55)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.11144v1

概述

GENIUS 基准突显了当今多模态 AI 评估中缺失的一环：生成式流体智能——模型推断模式、遵守临时约束并在新情境中即时适应的能力。通过超越静态知识回忆，作者展示了当前统一多模态模型（UMMs）在视觉生成任务中被要求“临场思考”时的困难。

任务设计 – 每个 GFI 任务围绕一个包含所有必要信息的单一提示构建；不使用外部知识库。三个原语在具体的视觉生成场景中实现：
- 诱导隐式模式：模型必须从少量示例图像中推断用户的隐藏审美偏好，并据此生成新内容。
- 执行临时约束：提示中包含抽象约束（例如，“绘制一座像爵士独奏一样的城市”），迫使模型将非视觉概念映射到视觉元素。
- 适应情境知识：如“展示一个向上滚动的球”之类的情境，需要模型在保持连贯性的前提下违背日常物理规律。
基准构建 – 编写了超过 1,200 条提示，均衡覆盖三种原语，涵盖艺术、UI 设计、科学插图等多领域。经人工验证的参考输出提供了评估的金标准。
评估协议 – 生成的图像使用自动化指标（基于 CLIP 的相似度、特定约束分类器）和人工判断（众包评分模式忠实度、约束满足度以及情境合理性）相结合进行打分。
注意力干预 – 在推理阶段，作者从提示的 token 嵌入中计算 上下文相关性图，并提升指向当前原语线索的 token 的注意力权重。此过程无需重新训练，仅需一次前向传播的修改。

基线差距：整体来看，表现最佳的 UMM（使用 CLIP 引导的扩散模型）在 GFI 任务上的平均人工满意度仅为 42%，而在传统知识回忆基准上超过 80%。
原语层面表现：模型在 模式诱导（≈ 48%）上相对较好，但在 临时约束（≈ 35%）和 上下文适应（≈ 33%）方面表现较差。
诊断洞察：消融研究表明，当提示的上下文线索被显式突出（例如，通过复制关键 token）时，性能提升最高可达 12%，这表明瓶颈在于上下文解析而非图像合成。
注意力干预影响：应用无训练的重新加权在所有模型上将平均分提升了 7–9%，对约束重的提示提升最大。对标准生成任务未观察到性能下降。

产品设计与个性化：需要适应用户不断变化风格的工具（例如 AI 辅助的 UI 原型）可以通过 GFI 感知的训练或推理技巧，更好地捕捉隐含偏好，从而受益。
创意 AI 助手：在设计师进行头脑风暴、请求“视觉隐喻”或“超现实物理”等时，加入 GFI 评估可以指导模型选择和微调。
安全与对齐：了解模型遵守临时约束的能力对于防止在受监管领域（如医学插图、自动驾驶仿真）产生意外输出至关重要。
快速原型：无训练的注意力干预提供了一种低成本的方式来提升现有流水线，而无需大规模微调的费用。

未来的研究方向包括将 GENIUS 扩展到视频生成、整合多模态对话上下文，以及探索能够在推理期间动态适应的学习式注意力调制模块。