[Paper] Reference Games 作为模型不确定性与澄清请求对齐的测试平台
发布: (2026年1月13日 GMT+8 02:53)
8 min read
原文: arXiv
Source: arXiv - 2601.07820v1
请提供您希望翻译的具体文本内容,我将为您翻译成简体中文并保留原有的格式。
概述
本文研究了现代视觉‑语言模型是否能够表现得像一个对话伙伴,在对指称对象不确定时请求澄清。通过将问题框定为参考游戏——一种受控环境,其中说话者描述一个对象,听者必须识别它——作者构建了一个可衡量的测试,以评估模型识别自身不确定性并请求额外信息的能力。
关键贡献
- 新颖的测试平台: 引入参考游戏作为一种轻量、可复现的基准,用于探测多模态模型的 uncertainty‑aware 行为。
- 澄清协议: 定义了一套简单的指令,使模型能够明确请求澄清,而不是猜测。
- 实证评估: 对三种最先进的视觉语言模型进行基准测试,涵盖标准的参考解析任务和新的 “不确定时请求澄清” 变体。
- 诊断性洞察: 表明即使在适度且结构良好的任务上,现有模型也常未能将内部不确定性转化为恰当的澄清请求。
- 开源资源: 提供游戏数据、提示词和评估脚本,以鼓励社区采用。
方法论
- 参考游戏设置 – 每轮展示一张包含多个物体的图像。文本描述(“说话者”)使用属性(颜色、形状、位置等)指代一个目标物体。
- 基线任务 – 模型接收描述并必须输出目标物体的索引(指代解析)。该任务的准确率作为性能上限。
- 澄清条件 – 另外告知模型:“如果你对指的是哪个物体没有把握,请提出澄清问题;否则直接给出答案。” 模型可以 (a) 直接回答,或 (b) 生成澄清请求(例如:“你指的是左边的红色杯子吗?”)。
- 不确定性检测 – 不需要显式的置信分数;通过提示探测模型的内部表征。作者将生成的澄清请求视为模型识别到不确定性的证据。
- 评估指标 –
- 解析准确率(基线 vs. 澄清条件)。
- 澄清适当性 – 当模型本应出错时是否发出请求,以及请求是否在语义上相关。
- 澄清的精确率/召回率 – 衡量过度提问和不足提问。
在相同提示下,对三种公开可用的视觉‑语言模型(例如 BLIP‑2、OFA 和基于 CLIP 的编码‑解码器)进行测试。
结果与发现
- Baseline performance 的正确识别率在 78 % 到 91 % 之间,证实这些游戏对当前模型是可解的。
- Clarification behavior 表现不一致:
- 平均而言,模型仅在 30‑45 % 的出错案例中请求澄清,表明对不确定性的 recall 较低。
- 当它们请求时,40‑55 % 的问题要么模糊要么无关,显示出 precision 有限。
- Model differences:更大的 encoder‑decoder(OFA)在检测不确定性方面略有优势,但仍在许多高风险情形下未请求澄清。
- Trade‑off:强制模型请求澄清可将直接错误率(约从 ~10 % 降至 ~6 %)降低,但会产生模型不必要请求的新的失败模式,导致交互变慢。
总体而言,研究表明当前的视觉‑语言模型缺乏可靠的内部信号,无法像人类一样发出澄清请求。
实际意义
- 人机协作:在混合主动系统(例如机器人助理、增强现实叠加或视觉搜索工具)中,能够询问“您是指…吗?”可以防止代价高昂的错误并提升用户信任。
- 安全关键领域:在医学影像或自主检查中,能够标记不确定性并寻求澄清的模型可以降低误报/漏报。
- 提示工程:本文展示了通过简单提示即可诱导模型表现出对不确定性的感知,表明开发者可以在不重新训练的情况下,以低成本添加澄清逻辑。
- 评估标准:参考游戏提供了可复现的基准,可整合到现有模型评估流程中,鼓励开发者在关注原始准确率的同时考虑交互质量。
- 产品设计:UI/UX 设计师可以基于模型生成的不确定性信号嵌入澄清循环(例如“这就是您要找的红色杯子吗?”),从而实现更流畅的对话界面。
限制与未来工作
- 游戏范围:参考游戏在视觉上相对简单,词汇量有限;在更丰富、真实世界场景中的表现可能不同。
- 隐式置信度:研究依赖提示来显露不确定性,而不是显式的置信分数,这可能会产生噪声。未来工作可以探索校准的概率输出。
- 模型规模与训练数据:仅检查了三种模型;更大或指令微调的模型(例如 GPT‑4V)可能表现不同。
- 用户研究:本文在孤立环境中评估模型行为;需要真实世界的用户研究来评估人类如何感知和响应 AI 生成的澄清请求。
- 迭代澄清:当前实验只允许一次澄清回合。扩展到多轮对话可能揭示更丰富的交互动态。
通过突出其前景与当前的不足,本文为构建更具自我意识、协作性的 AI 系统设定了明确的议程。
作者
- Manar Ali
- Judith Sieker
- Sina Zarrieß
- Hendrik Buschmeier
论文信息
- arXiv ID: 2601.07820v1
- 分类: cs.CL
- 出版日期: 2026年1月12日
- PDF: 下载 PDF