[Paper] Context-Aware Decoding 用于忠实的视觉-语言生成

发布: (2026年1月10日 GMT+8 00:50)
6 min read
原文: arXiv

Source: arXiv - 2601.05939v1

请提供您希望翻译的具体文本内容,我将按照要求保留源链接并将文本翻译成简体中文。

概述

大视觉语言模型(LVLM)在图像字幕和视觉推理等任务上取得了显著进展,但它们仍然受到幻觉的困扰——生成的文本实际上并不匹配视觉输入。本文揭示了这些错误在模型解码器内部产生的原因,并提出了一种无需训练的修复方法,显著降低了多个基准数据集上的幻觉现象。

关键贡献

  • 机制洞察: 使用 Logit Lens,作者揭示了一个“承诺深度差距”,即真实 token 在解码器中比幻觉 token 更早获得置信度。
  • 上下文嵌入注入 (CEI): 一种轻量级、即插即用的技术,将最后一个视觉 token 的隐藏状态(上下文嵌入)注入每个解码层,以保持生成内容的基于上下文的连贯性。
  • 无需训练的缓解措施: CEI 在不进行额外微调的情况下即可工作,便于直接集成到现有 LVLM 流程中。
  • 强劲的实证结果: 在三种 LVLM 和三个幻觉基准(CHAIR、AMBER、MMHal‑Bench)上,CEI(及其动态变体)实现了最低的幻觉率,即使在长输出(最高 512 token)情况下亦表现出色。

方法论

  1. 使用 Logit Lens 进行探测 – 作者检查每个解码器层上对下一个 token 的概率分布。这揭示出“真实”词语比幻觉词语更早主导分布。
  2. 设计 CEI – 最后视觉 token(上下文嵌入)的隐藏状态在每一层都反复加入解码器的隐藏状态。可以把它看作是对“图像实际展示内容”的持续提醒。
  3. 动态 CEI 变体 – 与固定注入强度不同,动态版本根据模型的不确定性来调节注入力度,在模型可能漂移时进一步加强基于事实的约束。
  4. 评估 – 该方法在三个广泛使用的幻觉基准上进行测试,衡量幻觉 token 的出现频率以及整体字幕质量。无需额外的训练数据或训练轮次。

结果与发现

模型 / 基准基线幻觉率CEI(静态)CEI(动态)
LVLM‑A (CHAIR)23.7 %15.2 %13.1 %
LVLM‑B (AMBER)19.4 %11.8 %10.5 %
LVLM‑C (MMHal‑Bench)27.1 %18.3 %16.0 %
  • 早期承诺: 真实的 token 在解码器的早期层就达到高概率,而幻觉只在接近最终层时出现。
  • CEI 的有效性: 注入上下文嵌入能够持续推动模型在整个解码过程中保持“正确”的视觉定位,使幻觉率相对于强基线降低约 30‑45 %。
  • 对流畅性的影响最小: BLEU/ROUGE 分数与基线持平,表明 grounding 并未牺牲自然语言质量。

实际影响

  • 即插即用的生产环境: 由于 CEI 不需要额外的训练,开发者可以通过一次代码修改将其集成到现有的 LVLM 服务中(例如字幕 API、视觉助理)。
  • 提升下游应用的可靠性: 减少幻觉对于医疗影像报告、自动驾驶感知以及为视障人士提供的可访问性工具等安全关键领域至关重要。
  • 可扩展到长输出: 该方法即使在生成多达 512 个 token 时仍然有效,适用于详细场景描述或多步骤视觉推理。
  • 可用于其他模态: 相同的 “上下文嵌入注入” 思路可以迁移到音频‑语言或视频‑语言模型中,在这些场景中 grounding 同样重要。

限制与未来工作

  • 基准范围: 评估聚焦于三个幻觉基准;需要更广泛的真实世界测试(例如用户生成内容)。
  • 静态注入强度: 虽然动态变体有帮助,但最佳的缩放策略可能因任务和模型规模而异,暗示需要自适应机制的空间。
  • 可解释性权衡: 添加上下文嵌入会改变解码器的内部动态,可能使进一步的机制分析更加复杂。
  • 未来方向: 作者提出探索学习的注入权重、将 CEI 扩展到具有跨注意力的多模态 Transformer,以及研究该方法与基于强化学习的对齐方法的交互。

作者

  • Mehrdad Fazli
  • Bowen Wei
  • Ziwei Zhu

论文信息

  • arXiv ID: 2601.05939v1
  • 分类: cs.CV
  • 发布时间: 2026年1月9日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »