[Paper] 当提示取代视觉时:提示诱导的幻觉在 LVLMs 中

发布: (2026年4月24日 GMT+8 01:54)
8 分钟阅读
原文: arXiv

Source: arXiv - 2604.21911v1

概述

大型视觉语言模型(LVLM)在回答视觉问题、描述图像乃至跨模态推理方面已经表现出令人印象深刻的能力。然而,它们仍然会出现幻觉——看似合理但实际上并未基于图像的答案。本文提出了 Halluscope,一个用于诊断 LVLM 幻觉原因的基准,并提出 HallU‑VL‑DPO,一种微调方案,教会模型在面对过强的文本先验时更信任视觉输入。

关键贡献

  • Halluscope 基准 – 一套系统化的提示集合,用于区分由 (a) 视觉骨干限制、(b) 语言主导以及 (c) 文本指令先验导致的幻觉。
  • 实证诊断 – 表明最大的问题是模型对通过提示和指令注入的 文本先验 的依赖,而非视觉编码器的缺陷。
  • HallU‑VL‑DPO 框架 – 在精心策划的 “真实 vs 幻觉” 数据集上利用直接偏好优化(DPO),重新加权模型的决策,使其更倾向于视觉真实性。
  • 全面评估 – 证明经过 DPO 微调的 LVLM 能降低提示诱发的幻觉,同时在现有幻觉和视觉推理基准上保持或提升分数。
  • 开放资源 – 发布 Halluscope 基准、偏好训练集以及代码,以实现可复现性并促进社区扩展。

方法论

1. 基准设计(Halluscope)

  • 构建了三类测试用例:
    1. 仅视觉 问题(文本偏差最小)。
    2. 语言密集 提示,嵌入强大的世界知识(例如,“描述图片中的埃菲尔铁塔”)。
    3. 指令驱动 提示,系统被要求“像历史学家一样解释场景”。
  • 每个案例都配有一个真实的视觉答案和一个合理的幻觉干扰项。

2. 诊断失效模式

  • 在 Halluscope 上运行了多个现成的 LVLM(例如 LLaVA、MiniGPT‑4)。
  • 测量了每类提示的幻觉率,并进行了消融研究(例如,去除指令、替换视觉骨干)。

3. 基于偏好的微调(HallU‑VL‑DPO)

  • 收集了一个 偏好数据集:对每个图像‑提示对,标注者将 有依据 的回答排在 幻觉 回答之上。
  • 应用了 Direct Preference Optimization,一种无需强化学习的方式,直接更新模型的 logits,以提升首选答案的概率。
  • 仅微调语言头部,保持视觉编码器冻结,使该方法轻量且兼容现有 LVLM 检查点。

4. 评估

  • 在 Halluscope 以及三个公开的幻觉基准上(例如 VQA‑Hallucination、MME‑Hallucination)测试了微调后的模型。
  • 同时测量了标准的视觉‑语言指标(VQA 准确率、图像描述 BLEU/ROUGE),以确保整体能力没有退化。

结果与发现

指标Off‑the‑shelf LVLMHallU‑VL‑DPO (fine‑tuned)
Halluscope 幻觉率(整体)38%12%
指令驱动的幻觉52%14%
仅视觉幻觉22%10%
VQA 准确率(标准测试集)78.3%79.1%
图像描述 CIDEr112.5113.8
  • 主要洞察: 文本指令会显著放大幻觉;当这些线索被移除时,同一 LVLM 的幻觉率大幅下降。
  • HallU‑VL‑DPO 将目标失效模式降低约 75 %,同时 略微 提升核心视觉‑语言性能,表明模型学会在不牺牲语言流畅性的前提下,更加依赖视觉证据。
  • 消融实验证实视觉骨干并非瓶颈——在 DPO 过程中冻结视觉骨干仍能获得显著提升,进一步支持 “语言主导” 假设。

实际意义

  • 更安全的 AI 助手: 开发多模态聊天机器人(例如用于电子商务、医学影像)的开发者可以集成 HallU‑VL‑DPO,以降低自信错误视觉陈述的风险。
  • 提示工程指南: 研究表明应避免过于规定性的指令;相反,使用中性查询(“你看到了什么?”)来保持幻觉率低。
  • 即插即用微调: 由于仅更新语言头,现有 LVLM 部署可以通过在普通 GPU 资源上进行几小时的 DPO 训练进行升级。
  • 基准驱动的 QA 流程: Halluscope 可作为任何新 LVLM 发布的回归测试,确保原始准确率的提升不会以视觉对齐为代价。
  • 监管合规: 对于要求事实准确性的领域(例如自主检查、法律文档分析),该方法提供了可审计的具体缓解策略。

限制与未来工作

  • 幻觉范围: Halluscope 关注由提示引起的幻觉;其他失效模式(例如遮挡、低分辨率输入)仍未得到充分探索。
  • 数据集偏差: 偏好集合来自有限的图像领域(大多是日常场景);在专业领域(医学、卫星)上的表现可能有所不同。
  • 模型规模依赖性: 实验在 7B‑13B LVLM 上进行;尚不清楚该方法在更大(30B+)模型上如何扩展,因为语言先验可能更强。
  • 用户可控的权衡: 当前的 DPO 损失将 grounding 视为始终更可取;未来工作可以让开发者在创意与忠实度之间根据应用进行平衡。

作者计划通过更丰富的视觉领域扩展 Halluscope,探索多模态 DPO(包括音频),并研究能够自动检测并抑制高风险指令模式的自适应提示技术。

作者

  • Pegah Khayatan
  • Jayneel Parekh
  • Arnaud Dapogny
  • Mustafa Shukor
  • Alasdair Newson
  • Matthieu Cord

论文信息

  • arXiv ID: 2604.21911v1
  • 分类: cs.CV, cs.AI, cs.CL, cs.LG
  • 出版日期: 2026年4月23日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »