[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中

发布: 16小时前 (2026年4月24日 GMT+8 01:54)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.21911v1

概述

大型视觉语言模型（LVLM）在回答视觉问题、描述图像乃至跨模态推理方面已经表现出令人印象深刻的能力。然而，它们仍然会出现幻觉——看似合理但实际上并未基于图像的答案。本文提出了 Halluscope，一个用于诊断 LVLM 幻觉原因的基准，并提出 HallU‑VL‑DPO，一种微调方案，教会模型在面对过强的文本先验时更信任视觉输入。

关键贡献

Halluscope 基准 – 一套系统化的提示集合，用于区分由 (a) 视觉骨干限制、(b) 语言主导以及 (c) 文本指令先验导致的幻觉。
实证诊断 – 表明最大的问题是模型对通过提示和指令注入的 文本先验 的依赖，而非视觉编码器的缺陷。
HallU‑VL‑DPO 框架 – 在精心策划的 “真实 vs 幻觉” 数据集上利用直接偏好优化（DPO），重新加权模型的决策，使其更倾向于视觉真实性。
全面评估 – 证明经过 DPO 微调的 LVLM 能降低提示诱发的幻觉，同时在现有幻觉和视觉推理基准上保持或提升分数。
开放资源 – 发布 Halluscope 基准、偏好训练集以及代码，以实现可复现性并促进社区扩展。

方法论

1. 基准设计（Halluscope）

构建了三类测试用例：
1. 仅视觉 问题（文本偏差最小）。
2. 语言密集 提示，嵌入强大的世界知识（例如，“描述图片中的埃菲尔铁塔”）。
3. 指令驱动 提示，系统被要求“像历史学家一样解释场景”。
每个案例都配有一个真实的视觉答案和一个合理的幻觉干扰项。

2. 诊断失效模式

在 Halluscope 上运行了多个现成的 LVLM（例如 LLaVA、MiniGPT‑4）。
测量了每类提示的幻觉率，并进行了消融研究（例如，去除指令、替换视觉骨干）。

3. 基于偏好的微调（HallU‑VL‑DPO）

收集了一个 偏好数据集：对每个图像‑提示对，标注者将 有依据 的回答排在幻觉回答之上。
应用了 Direct Preference Optimization，一种无需强化学习的方式，直接更新模型的 logits，以提升首选答案的概率。
仅微调语言头部，保持视觉编码器冻结，使该方法轻量且兼容现有 LVLM 检查点。

4. 评估

在 Halluscope 以及三个公开的幻觉基准上（例如 VQA‑Hallucination、MME‑Hallucination）测试了微调后的模型。
同时测量了标准的视觉‑语言指标（VQA 准确率、图像描述 BLEU/ROUGE），以确保整体能力没有退化。

结果与发现

指标	Off‑the‑shelf LVLM	HallU‑VL‑DPO (fine‑tuned)
Halluscope 幻觉率（整体）	38%	12%
指令驱动的幻觉	52%	14%
仅视觉幻觉	22%	10%
VQA 准确率（标准测试集）	78.3%	79.1%
图像描述 CIDEr	112.5	113.8

主要洞察： 文本指令会显著放大幻觉；当这些线索被移除时，同一 LVLM 的幻觉率大幅下降。
HallU‑VL‑DPO 将目标失效模式降低约 75 %，同时略微提升核心视觉‑语言性能，表明模型学会在不牺牲语言流畅性的前提下，更加依赖视觉证据。
消融实验证实视觉骨干并非瓶颈——在 DPO 过程中冻结视觉骨干仍能获得显著提升，进一步支持 “语言主导” 假设。

实际意义

更安全的 AI 助手: 开发多模态聊天机器人（例如用于电子商务、医学影像）的开发者可以集成 HallU‑VL‑DPO，以降低自信错误视觉陈述的风险。
提示工程指南: 研究表明应避免过于规定性的指令；相反，使用中性查询（“你看到了什么？”）来保持幻觉率低。
即插即用微调: 由于仅更新语言头，现有 LVLM 部署可以通过在普通 GPU 资源上进行几小时的 DPO 训练进行升级。
基准驱动的 QA 流程: Halluscope 可作为任何新 LVLM 发布的回归测试，确保原始准确率的提升不会以视觉对齐为代价。
监管合规: 对于要求事实准确性的领域（例如自主检查、法律文档分析），该方法提供了可审计的具体缓解策略。

限制与未来工作

幻觉范围： Halluscope 关注由提示引起的幻觉；其他失效模式（例如遮挡、低分辨率输入）仍未得到充分探索。
数据集偏差： 偏好集合来自有限的图像领域（大多是日常场景）；在专业领域（医学、卫星）上的表现可能有所不同。
模型规模依赖性： 实验在 7B‑13B LVLM 上进行；尚不清楚该方法在更大（30B+）模型上如何扩展，因为语言先验可能更强。
用户可控的权衡： 当前的 DPO 损失将 grounding 视为始终更可取；未来工作可以让开发者在创意与忠实度之间根据应用进行平衡。

作者计划通过更丰富的视觉领域扩展 Halluscope，探索多模态 DPO（包括音频），并研究能够自动检测并抑制高风险指令模式的自适应提示技术。

作者

Pegah Khayatan
Jayneel Parekh
Arnaud Dapogny
Mustafa Shukor
Alasdair Newson
Matthieu Cord

论文信息

arXiv ID: 2604.21911v1
分类: cs.CV, cs.AI, cs.CL, cs.LG
出版日期: 2026年4月23日
PDF: 下载 PDF

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中

概述

关键贡献

方法论

1. 基准设计（Halluscope）

2. 诊断失效模式

3. 基于偏好的微调（HallU‑VL‑DPO）

4. 评估

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] OMIBench：大型视觉语言模型中奥林匹克水平多图像推理的基准测试

[Paper] 观察快与慢：学习视频中的时间流动

[Paper] GiVA：梯度感知基用于基于向量的适应

[Paper] TingIS：企业规模下从噪声客户事件中实时发现风险事件