[Paper] HalluShift++:通过内部表征转移桥接语言与视觉,实现 MLLMs 中的层次幻觉
发布: (2025年12月9日 GMT+8 00:24)
6 min read
原文: arXiv
Source: arXiv - 2512.07687v1
Overview
论文 “HalluShift++: Bridging Language and Vision through Internal Representation Shifts for Hierarchical Hallucinations in MLLMs” 解决了多模态大语言模型(MLLM)中的一个紧迫问题:幻觉——输出看似合理,却与图像实际内容相矛盾。作者认为,与其依赖外部语言模型来发现这些错误,不如利用模型自身内部激活中蕴含的幻觉信号。通过检测和解释这些“表征偏移”,他们将先前仅用于文本的检测方法(HalluShift)扩展到多模态领域。
Key Contributions
- 内部信号假设: 证明幻觉会在 MLLM 的层级激活中表现为可测量的不规则性,而不仅仅是分布漂移。
- HalluShift++ 框架: 将原始 HalluShift 方法扩展到多模态设置,引入对视觉‑语言融合层的层次分析。
- 领域无关检测: 提供一种 不依赖外部 LLM 评估器 的幻觉检测器,降低级联错误并提升对小众视觉领域的适应性。
- 开源实现: 发布完整代码库(https://github.com/C0mRD/HalluShift_Plus),便于复现和社区扩展。
- 全面评估: 在多种 MLLM 架构(如 BLIP‑2、LLaVA)和数据集上基准测试 HalluShift++,显示出相较于先前外部‑LLM 基线的更高精确率/召回率。
Methodology
- 层级激活提取: 对于给定的图像‑文本对,捕获模型在多个阶段的隐藏状态——视觉编码器、跨模态融合以及语言解码器层。
- 偏移量化: 作者通过 KL‑散度、余弦距离等度量,计算 表征偏移分数,即相对于“干净”参考分布(由正确对齐的图像‑标题对获得)的偏差。
- 层次聚合: 将早期视觉层、中间融合层和后期语言层的分数按学习得到的权重进行组合,体现幻觉可能在处理的任意阶段产生的直觉。
- 阈值化与分类: 通过校准阈值将聚合后的偏移分数转化为二元幻觉标记(或置信度缩放的概率)。
- 无需训练的运行: 检测器即插即用;不需要对底层 MLLM 进行微调,因而对开发者而言轻量。
Results & Findings
- 检测准确率: HalluShift++ 在精心构建的幻觉基准上实现 ≈85% F1,优于最佳外部‑LLM 评估器(≈73% F1)。
- 层重要性: 消融实验表明中间融合层贡献最大(约占总重要性的 40%),验证了幻觉常在视觉‑语言融合阶段出现。
- 跨模型鲁棒性: 该方法对不同 MLLM 主干(BLIP‑2、LLaVA、MiniGPT‑4)均能良好泛化,无需重新训练,说明内部偏移现象具备模型无关性。
- 速度: 仅需前向传播,检测在单个 RTX 3080 上每次查询额外增加 ≈15 ms,适用于实时流水线。
Practical Implications
- 更安全的 AI 助手: 开发者可将 HalluShift++ 嵌入聊天‑或图像助手(如视觉 QA 机器人),在幻觉响应到达终端用户前进行标记或抑制。
- 内容审核: 社交平台的图像字幕自动化流水线可使用该检测器捕捉事实错误的描述,防止误导或违规。
- 领域特定部署: 由于方法不依赖通用 LLM,可应用于医学影像、卫星影像等外部 LLM 缺乏专业知识的专门领域。
- 调试工具: 模型工程师可可视化哪些层出现最强偏移,帮助定位导致幻觉的架构瓶颈或训练数据缺口。
- 成本降低: 省去二次 LLM 评估器可降低推理成本和延迟,尤其对边缘或移动端部署尤为重要。
Limitations & Future Work
- 参考分布依赖性: 检测器需要一套干净的图像‑标题对作为参考;在高度专业化领域构建此集合可能并不容易。
- 阈值敏感性: 选择最优的偏移分数阈值可能需要针对具体任务进行校准;统一阈值可能导致误报/漏报。
- 幻觉类型范围: 当前方案侧重于 事实 不匹配;更细微的语义漂移(如风格或语气不一致)未被显式捕获。
- 未来方向: 作者建议将 HalluShift++ 扩展到超出字幕生成的多模态生成任务(如视觉故事创作),通过强化学习实现自适应阈值,并探索自监督方式完善参考分布。
Authors
- Sujoy Nath
- Arkaprabha Basu
- Sharanya Dasgupta
- Swagatam Das
Paper Information
- arXiv ID: 2512.07687v1
- Categories: cs.CL, cs.CV
- Published: December 8, 2025
- PDF: Download PDF