[Paper] NoLan:通过动态抑制语言先验缓解大型视觉语言模型中的对象幻觉

发布: (2026年2月26日 GMT+8 01:50)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.22144v1

概述

大型视觉语言模型(LVLM)已成为多模态助理的首选骨干,但它们常常“幻觉”出实际上不在图片中的对象。本文深入探讨了这种现象的原因,并提出了一种轻量级、无需训练的解码微调——NoLan——它在不牺牲性能的前提下显著降低幻觉现象。

关键贡献

  • 根因分析: 系统实验表明,语言解码器的强先验,而非视觉编码器,是导致对象幻觉的主要原因。
  • NoLan 框架: 引入一种基于多模态与仅文本输出分布差异的动态推理时抑制语言先验的方法。
  • 无需训练的解决方案: 不需要额外的模型参数或微调;该方法可作为插件直接用于任何现有 LVLM。
  • 广泛验证: 在多种 LVLM(如 LLaVA‑1.5 7B、Qwen‑VL 7B)和任务(POPE、VQA、字幕生成)上展示了一致的幻觉降低效果。
  • 开源发布: 代码和集成脚本已公开,可促进快速采用。

方法论

  1. 分解管道 – 作者通过将相同的视觉特征输入仅文本语言模型,并将其输出分布与完整 LVLM 的输出分布进行比较,从而将视觉编码器和语言解码器分离。
  2. 衡量先验影响 – 他们计算多模态输出分布与仅文本基线之间的 KL‑散度。较大的散度表明语言解码器注入了强先验。
  3. 动态抑制 – 在解码过程中,NoLan 会降低被语言先验过度提升的 logits(原始 token 分数)。缩放因子是观察到的散度的函数:差距越大,抑制越强。
  4. 实现方式 – 该技术是对标准 beam‑search 或采样解码器的轻量包装;无需额外的训练数据、梯度或架构修改。

结果与发现

Model任务基线准确率NoLan 准确率Δ 提升
LLaVA‑1.5 7BPOPE(幻觉基准)71.3 %77.8 %+6.5 %
Qwen‑VL 7BPOPE68.9 %76.1 %+7.2 %
Various LVLMs视觉问答与图像描述可比或略低相同或更高≤ 0 % 损失,通常 +1‑2 %

关键要点

  • NoLan 在所有模型和任务上始终降低了虚构对象的出现率。
  • 由于该方法仅修改解码 logits,几乎没有额外开销(≈ 1 ms 每次推理)。
  • 此方法 不会 降低模型生成流畅、上下文感知语言的能力。

实际意义

  • 可部署的安全层: 团队可以将 NoLan 集成到现有 LVLM 服务(例如聊天机器人、视觉助理)中,以在无需重新训练的情况下提升输出的可信度。
  • 合规监管: 降低幻觉有助于满足新兴的 AI 透明度标准,这些标准要求输出可验证。
  • 成本效益提升: 由于 NoLan 仅在推理阶段使用,避免了对大型多模态模型进行微调的计算开销。
  • 更佳的用户体验: 减少错误的对象提及,使得依赖准确视觉定位的下游流水线(例如机器人、AR 覆盖)能够获得更清晰的指令。

限制与未来工作

  • 幻觉范围: 本研究聚焦于 object 幻觉;其他类型(例如 attribute 或 relational 幻觉)仍未涉及。
  • 对基线仅文本模型的依赖: 抑制因子的有效性取决于用于比较的 text‑only 解码器的质量。
  • 潜在的过度抑制: 在语言先验实际上是正确的极端情况(例如 commonsense 推理)中,NoLan 可能会削弱有用信息。
  • 未来方向: 将动态抑制概念扩展到处理 attribute 幻觉,探索针对不同 token 类型的自适应阈值,并整合 visual grounding 检查以实现更紧密的 vision‑language 反馈回路。

作者

  • Lingfeng Ren
  • Weihao Yu
  • Runpeng Yu
  • Xinchao Wang

论文信息

  • arXiv ID: 2602.22144v1
  • 类别: cs.CV, cs.AI, cs.CL
  • 发表时间: 2026年2月25日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »