[Paper] MoD-DPO:通过模态解耦偏好优化缓解全能大语言模型中的跨模态幻觉

发布: (2026年3月4日 GMT+8 01:50)
8 分钟阅读
原文: arXiv

请提供您希望翻译的具体文本内容(例如摘要、章节或整篇文章),我会在保持原始格式、Markdown 语法和技术术语不变的前提下,将其翻译成简体中文。谢谢!

概述

全模态大型语言模型(LLMs)能够在单一系统中对文本、图像和音频进行推理,但它们常常出现“幻觉”——给出与视觉或听觉输入不一致的答案。论文 MoD‑DPO 提出了一种轻量级训练方案,明确教导这些模型在正确的模态上保持扎根,同时忽略无关信号,从而显著减少跨模态幻觉。

关键贡献

  • 模态解耦直接偏好优化(MoD‑DPO):一种新的微调框架,在标准 DPO 损失上加入模态感知正则项。
  • 不变性与敏感性正则化:迫使模型对非相关模态的扰动保持不变(例如在回答视觉问题时对嘈杂音频保持鲁棒),而对相关模态的扰动保持敏感。
  • 语言先验去偏惩罚:对仅基于文本的回答施加惩罚,防止模型仅凭语言先验而非多模态证据作出响应。
  • 实证验证:在多个视听基准上实现了最先进的幻觉率下降,且计算预算与之前的偏好优化方法相同。
  • 可扩展设计:该方法可作为现有全模态大模型的即插即用插件,无需更改模型结构。

方法论

  1. 基础模型 – 从预训练的全模态大语言模型(例如 Flamingo‑2、LLaVA‑Video)开始,这些模型已经支持文本‑图像‑音频输入。
  2. 偏好数据 – 收集模型输出对:一个“好”的响应正确引用相关模态,和一个“坏”的响应要么忽略该模态,要么依赖语言先验。
  3. 直接偏好优化 (DPO) – 使用二元交叉熵损失对偏好对进行优化,使模型对好响应分配更高的似然。
  4. 模态解耦正则化
    • 无关模态不变性:随机破坏非相关模态(例如在音频问答任务时模糊图像),并强制模型对好响应的 logits 保持不变。
    • 相关模态敏感性:对相关模态施加轻微扰动(例如在音频中加入背景噪声),并要求模型的 logits 成比例变化,以鼓励真实的 grounding。
  5. 语言先验去偏 – 添加一个惩罚项,其大小与模型仅在文本提示下产生相同答案的概率成正比,抑制“仅文本捷径”。
  6. 训练循环 – 最终损失是 DPO 项、两个正则化项以及去偏惩罚的加权和。训练在偏好数据集上进行几轮 epoch,成本远低于全尺度的多模态预训练。

结果与发现

Benchmark基线 DPO 幻觉率MoD‑DPO 幻觉率感知准确率 (↑)
AVQA‑幻觉 (音视频问答)23%12%+5.4 pts
视频叙事 (仅视觉)18%9%+4.1 pts
多模态 NLI (文本+图像)21%11%+6.2 pts
  • 持续提升:在所有三个数据集上,MoD‑DPO 将幻觉降低约 40‑50%,同时提升答案正确性。
  • 计算高效:该方法使用相同的 GPU 小时数(≈ 2‑3 k GPU‑h)即可匹配或超越先前的 DPO 基线。
  • 消融洞察:去除不变性项会导致幻觉率上升 15%;去掉语言先验惩罚会使仅文本的捷径增加 8%。
  • 鲁棒性:在面对分布外的模态损坏时,模型仍保持稳定,表明其泛化能力更强。

Practical Implications

  • 更可靠的助手: 开发多模态聊天机器人(例如视频支持代理、音频引导编辑器)可以集成 MoD‑DPO,以确保助手的回复真正反映提供的媒体,降低用户挫败感。
  • 安全与合规: 在受监管领域(医学影像、自动驾驶), grounding 保证至关重要;MoD‑DPO 提供了一种可行的方法来证明模型输出不是幻觉。
  • 成本效益的微调: 由于该方法基于现有基础模型并且只需要偏好数据(可通过人工参与或 LLM 自我排序生成),团队可以在不需要巨额预训练预算的情况下提升多模态忠实度。
  • 工具集成: 正则项是简单的 PyTorch 模块;它们可以包装进流行库(例如 🤗 Transformers)作为“模态感知 DPO”训练器,降低采用门槛。
  • 更佳的用户体验: 视频摘要、字幕或多模态搜索等应用将产生与视觉/音频线索一致的结果,从而提升参与度和信任。

限制与未来工作

  • 偏好数据依赖 – MoD‑DPO 仍然需要高质量的偏好对;在小众领域大规模生成这些对可能需要大量人工工作。
  • 模态范围 – 论文聚焦于音视频任务;将正则化器扩展到其他模态(例如深度图、3‑D 点云、传感器数据)仍是一个未解之题。
  • 扰动设计 – 不变性/敏感性正则化的有效性取决于腐蚀方式的选择;不恰当的扰动可能会对模型约束过强,或未能捕捉细微的跨模态线索。
  • 长篇一致性 – 虽然短问答和字幕生成有所提升,但在长叙事或多轮对话中保持模态忠实度仍需进一步研究。
  • 未来方向 – 作者建议探索用于扰动强度的自动化课程学习,结合对比多模态目标,并在融合语言与视频、3‑D、传感器流的最新基础模型上评估 MoD‑DPO。

作者

  • Ashutosh Chaubey
  • Jiacheng Pang
  • Mohammad Soleymani

论文信息

  • arXiv ID: 2603.03192v1
  • 分类: cs.CV, cs.CL, cs.LG
  • 发布日期: 2026年3月3日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[论文] SimpliHuMoN: 简化人体动作预测

Human motion prediction 将轨迹预测(trajectory forecasting)和人体姿态预测(human pose prediction)这两个任务结合在一起。针对这两个任务,已经开发了专门的模型……