[Paper] MoD-DPO：通过模态解耦偏好优化缓解全能大语言模型中的跨模态幻觉

发布: 2天前 (2026年3月4日 GMT+8 01:50)

8 分钟阅读

原文: arXiv

请提供您希望翻译的具体文本内容（例如摘要、章节或整篇文章），我会在保持原始格式、Markdown 语法和技术术语不变的前提下，将其翻译成简体中文。谢谢！

概述

全模态大型语言模型（LLMs）能够在单一系统中对文本、图像和音频进行推理，但它们常常出现“幻觉”——给出与视觉或听觉输入不一致的答案。论文 MoD‑DPO 提出了一种轻量级训练方案，明确教导这些模型在正确的模态上保持扎根，同时忽略无关信号，从而显著减少跨模态幻觉。

基础模型 – 从预训练的全模态大语言模型（例如 Flamingo‑2、LLaVA‑Video）开始，这些模型已经支持文本‑图像‑音频输入。
偏好数据 – 收集模型输出对：一个“好”的响应正确引用相关模态，和一个“坏”的响应要么忽略该模态，要么依赖语言先验。
直接偏好优化 (DPO) – 使用二元交叉熵损失对偏好对进行优化，使模型对好响应分配更高的似然。
模态解耦正则化
- 无关模态不变性：随机破坏非相关模态（例如在音频问答任务时模糊图像），并强制模型对好响应的 logits 保持不变。
- 相关模态敏感性：对相关模态施加轻微扰动（例如在音频中加入背景噪声），并要求模型的 logits 成比例变化，以鼓励真实的 grounding。
语言先验去偏 – 添加一个惩罚项，其大小与模型仅在文本提示下产生相同答案的概率成正比，抑制“仅文本捷径”。
训练循环 – 最终损失是 DPO 项、两个正则化项以及去偏惩罚的加权和。训练在偏好数据集上进行几轮 epoch，成本远低于全尺度的多模态预训练。

Benchmark	基线 DPO 幻觉率	MoD‑DPO 幻觉率	感知准确率 (↑)
AVQA‑幻觉 (音视频问答)	23%	12%	+5.4 pts
视频叙事 (仅视觉)	18%	9%	+4.1 pts
多模态 NLI (文本+图像)	21%	11%	+6.2 pts

更可靠的助手: 开发多模态聊天机器人（例如视频支持代理、音频引导编辑器）可以集成 MoD‑DPO，以确保助手的回复真正反映提供的媒体，降低用户挫败感。
安全与合规: 在受监管领域（医学影像、自动驾驶）， grounding 保证至关重要；MoD‑DPO 提供了一种可行的方法来证明模型输出不是幻觉。
成本效益的微调: 由于该方法基于现有基础模型并且只需要偏好数据（可通过人工参与或 LLM 自我排序生成），团队可以在不需要巨额预训练预算的情况下提升多模态忠实度。
工具集成: 正则项是简单的 PyTorch 模块；它们可以包装进流行库（例如 🤗 Transformers）作为“模态感知 DPO”训练器，降低采用门槛。
更佳的用户体验: 视频摘要、字幕或多模态搜索等应用将产生与视觉/音频线索一致的结果，从而提升参与度和信任。