[论文] SIEVES：选择性预测通过视觉证据评分实现泛化

发布: 20小时前 (2026年4月29日 GMT+8 00:57)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.25855v1

Overview

本文介绍了 SIEVES —— 一个框架，使视觉语言模型能够通过对生成的视觉证据质量进行打分，决定何时回答问题、何时“放弃”。通过关注模型对相关图像区域的定位能力，SIEVES 在显著提升系统能够安全处理的输入比例（覆盖率）的同时，仍能将错误率控制在用户严格定义的限制范围内，即使在分布外（OOD）数据上亦如此。

关键贡献

通过视觉定位进行选择性预测 – 提出一种置信度估计器，用于判断模型视觉证据的定位质量，而不是依赖原始 logits。
模型无关的选择器 – SIEVES 选择器可以附加到任何黑箱推理器（包括专有 LLM），无需内部权重或 logits。
强大的 OOD 性能 – 在五个具有挑战性的 OOD 基准（V* Bench、HR‑Bench‑8k、MME‑RealWorld‑Lite、VizWiz、AdVQA）上实现最高 3 倍更高的覆盖率，相较于标准基于置信度的基线。
跨推理器的零样本迁移 – 可与多种视觉推理器（Pixel‑Reasoner、o3、Gemini‑3‑Pro）一起使用，无需任何特定基准的微调。
实用的风险控制 – 让开发者设定目标风险水平（例如 ≤ 5 % 错误率），并自动获得满足该条件的最大输入集合。

方法论

推理器生成视觉证据 – 任何能够输出热图或边界框以突出显示用于答案的图像区域的多模态模型。
证据评分网络（Selector） – 一个轻量级的基于 CNN 的模块，训练用于预测质量分数。训练目标将分数与答案是否正确对齐，使用少量标记的验证集。
基于阈值的弃权 – 推理时，将 Selector 的分数与用户定义的阈值进行比较，该阈值对应可接受的风险。如果分数低于阈值，系统弃权；否则返回答案。
黑盒兼容性 – 因为 Selector 只使用视觉证据（例如热图）和最终答案，它可以插入任何现有的推理器，即使是闭源 API。

结果与发现

Benchmark	Baseline Coverage (at 5 % risk)	SIEVES Coverage	Relative Gain
V* Bench	12 %	35 %	+3×
HR‑Bench‑8k	18 %	48 %	+2.7×
MME‑RealWorld‑Lite	22 %	61 %	+2.8×
VizWiz	15 %	44 %	+2.9×
AdVQA	20 %	55 %	+2.8×

准确率保持稳定 – 被放弃的预测是最可能错误的，因此整体错误率保持在目标风险范围内。
跨推理器增益 – 将 SIEVES 附加到 o3 和 Gemini‑3‑Pro，即使这些模型已经具有很高的原始准确率，也能提升 30‑40 % 的覆盖率。
无需针对每个基准进行微调 – 在一个适度的验证集上训练的单一选择器能够泛化到所有五个 OOD 数据集。

实际影响

更安全的生产部署 – 开发者可以提供视觉问答 API，当置信度（通过证据质量）低时自动拒绝回答，从而降低在安全关键领域（例如医学影像、自动化检查）中代价高昂的误分类。
成本效益的扩展 – 通过在不确定的情况中选择弃答，系统可以将这些输入转交给人工审查员或更昂贵的专用模型，从而优化计算预算。
兼容闭源大模型 – SIEVES 可以后装到商业视觉语言服务（例如 Gemini、GPT‑4V），无需内部模型访问，使其成为即插即用的可靠性层。
提升用户体验 – 最终用户会收到明确的“我不知道”回复，而不是错误答案，这对 AI 助手和客服机器人中的信任至关重要。

限制与未来工作

对显式视觉证据的依赖 – 未输出 grounding maps 的模型无法直接受益于 SIEVES；将 selector 扩展以推断隐式证据是一个未解决的挑战。
selector 的训练数据 – 虽然规模适中，selector 仍然需要一个标注好的集合，其中已知正确/错误答案；为细分领域收集此类数据可能并非易事。
阈值校准 – 风险阈值的选择可能因数据集而异；未来工作可以探索基于流式性能指标自动调节的自适应阈值。
更广泛的模态覆盖 – 本研究聚焦于基于图像的 VQA；将该方法扩展到视频、3‑D 数据或涉及音频的多模态推理仍有待探索。

作者

Hector G. Rodriguez
Marcus Rohrbach

论文信息

arXiv ID: 2604.25855v1
分类: cs.CV, cs.AI
发布日期: 2026年4月28日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 不让行人掉队：用于自适应交通信号控制的脆弱道路使用者实时检测与跟踪

当前的人行横道信号采用固定时序，未根据行人行为进行调整，这可能会使易受伤害的道路使用者（VRUs）如……

[Paper] 提升黑盒少样本知识蒸馏的多样性

Knowledge distillation (KD) 是一种广为人知的技术，能够在几乎不牺牲性能的情况下，将大型网络（teacher）有效压缩为更小的网络（student）……

[Paper] 多样化图像先验用于黑盒无数据知识蒸馏

知识蒸馏（KD）是将复杂教师网络的专业知识转移到高效学生模型中的关键机制。然而，在去中心化…

[Paper] Meta‑CoT：提升图像编辑中的粒度和泛化能力

统一的多模态理解/生成模型通过将细粒度理解融入其Chain‑o…，展示了改进的图像编辑性能。