[Paper] MoD-DPO:通过模态解耦偏好优化缓解全能大语言模型中的跨模态幻觉
发布: (2026年3月4日 GMT+8 01:50)
8 分钟阅读
原文: arXiv
请提供您希望翻译的具体文本内容(例如摘要、章节或整篇文章),我会在保持原始格式、Markdown 语法和技术术语不变的前提下,将其翻译成简体中文。谢谢!
概述
全模态大型语言模型(LLMs)能够在单一系统中对文本、图像和音频进行推理,但它们常常出现“幻觉”——给出与视觉或听觉输入不一致的答案。论文 MoD‑DPO 提出了一种轻量级训练方案,明确教导这些模型在正确的模态上保持扎根,同时忽略无关信号,从而显著减少跨模态幻觉。
关键贡献
- 模态解耦直接偏好优化(MoD‑DPO):一种新的微调框架,在标准 DPO 损失上加入模态感知正则项。
- 不变性与敏感性正则化:迫使模型对非相关模态的扰动保持不变(例如在回答视觉问题时对嘈杂音频保持鲁棒),而对相关模态的扰动保持敏感。
- 语言先验去偏惩罚:对仅基于文本的回答施加惩罚,防止模型仅凭语言先验而非多模态证据作出响应。
- 实证验证:在多个视听基准上实现了最先进的幻觉率下降,且计算预算与之前的偏好优化方法相同。
- 可扩展设计:该方法可作为现有全模态大模型的即插即用插件,无需更改模型结构。
方法论
- 基础模型 – 从预训练的全模态大语言模型(例如 Flamingo‑2、LLaVA‑Video)开始,这些模型已经支持文本‑图像‑音频输入。
- 偏好数据 – 收集模型输出对:一个“好”的响应正确引用相关模态,和一个“坏”的响应要么忽略该模态,要么依赖语言先验。
- 直接偏好优化 (DPO) – 使用二元交叉熵损失对偏好对进行优化,使模型对好响应分配更高的似然。
- 模态解耦正则化
- 无关模态不变性:随机破坏非相关模态(例如在音频问答任务时模糊图像),并强制模型对好响应的 logits 保持不变。
- 相关模态敏感性:对相关模态施加轻微扰动(例如在音频中加入背景噪声),并要求模型的 logits 成比例变化,以鼓励真实的 grounding。
- 语言先验去偏 – 添加一个惩罚项,其大小与模型仅在文本提示下产生相同答案的概率成正比,抑制“仅文本捷径”。
- 训练循环 – 最终损失是 DPO 项、两个正则化项以及去偏惩罚的加权和。训练在偏好数据集上进行几轮 epoch,成本远低于全尺度的多模态预训练。
结果与发现
| Benchmark | 基线 DPO 幻觉率 | MoD‑DPO 幻觉率 | 感知准确率 (↑) |
|---|---|---|---|
| AVQA‑幻觉 (音视频问答) | 23% | 12% | +5.4 pts |
| 视频叙事 (仅视觉) | 18% | 9% | +4.1 pts |
| 多模态 NLI (文本+图像) | 21% | 11% | +6.2 pts |
- 持续提升:在所有三个数据集上,MoD‑DPO 将幻觉降低约 40‑50%,同时提升答案正确性。
- 计算高效:该方法使用相同的 GPU 小时数(≈ 2‑3 k GPU‑h)即可匹配或超越先前的 DPO 基线。
- 消融洞察:去除不变性项会导致幻觉率上升 15%;去掉语言先验惩罚会使仅文本的捷径增加 8%。
- 鲁棒性:在面对分布外的模态损坏时,模型仍保持稳定,表明其泛化能力更强。
Practical Implications
- 更可靠的助手: 开发多模态聊天机器人(例如视频支持代理、音频引导编辑器)可以集成 MoD‑DPO,以确保助手的回复真正反映提供的媒体,降低用户挫败感。
- 安全与合规: 在受监管领域(医学影像、自动驾驶), grounding 保证至关重要;MoD‑DPO 提供了一种可行的方法来证明模型输出不是幻觉。
- 成本效益的微调: 由于该方法基于现有基础模型并且只需要偏好数据(可通过人工参与或 LLM 自我排序生成),团队可以在不需要巨额预训练预算的情况下提升多模态忠实度。
- 工具集成: 正则项是简单的 PyTorch 模块;它们可以包装进流行库(例如 🤗 Transformers)作为“模态感知 DPO”训练器,降低采用门槛。
- 更佳的用户体验: 视频摘要、字幕或多模态搜索等应用将产生与视觉/音频线索一致的结果,从而提升参与度和信任。
限制与未来工作
- 偏好数据依赖 – MoD‑DPO 仍然需要高质量的偏好对;在小众领域大规模生成这些对可能需要大量人工工作。
- 模态范围 – 论文聚焦于音视频任务;将正则化器扩展到其他模态(例如深度图、3‑D 点云、传感器数据)仍是一个未解之题。
- 扰动设计 – 不变性/敏感性正则化的有效性取决于腐蚀方式的选择;不恰当的扰动可能会对模型约束过强,或未能捕捉细微的跨模态线索。
- 长篇一致性 – 虽然短问答和字幕生成有所提升,但在长叙事或多轮对话中保持模态忠实度仍需进一步研究。
- 未来方向 – 作者建议探索用于扰动强度的自动化课程学习,结合对比多模态目标,并在融合语言与视频、3‑D、传感器流的最新基础模型上评估 MoD‑DPO。
作者
- Ashutosh Chaubey
- Jiacheng Pang
- Mohammad Soleymani
论文信息
- arXiv ID: 2603.03192v1
- 分类: cs.CV, cs.CL, cs.LG
- 发布日期: 2026年3月3日
- PDF: 下载 PDF