[Paper] 可解释的多模态回归通过信息分解
发布: (2025年12月27日 GMT+8 02:07)
7 min read
原文: arXiv
Source: arXiv - 2512.22102v1
概述
本文解决了多模态回归中的一个核心挑战:理解每个数据源(模态)如何对连续预测作出贡献。通过将融合过程基于Partial Information Decomposition(PID),作者提供了一种数学上严谨的方法来区分跨模态的unique、redundant和synergistic信息——使多模态模型对开发者和数据科学家更加可解释。
关键贡献
- 基于 PID 的回归框架,将潜在表示分解为唯一、冗余和协同信息成分。
- 对潜在代码与变换后目标的联合分布的高斯性假设,解决了 PID 的欠定性,并为所有 PID 项提供闭式表达式。
- 条件独立正则化项,通过解析推导,鼓励每个模态仅保留其 唯一 信息,简化解释并有助于后续模态选择。
- 在六个异构数据集上进行的大规模实证验证(包括大规模脑龄预测任务),显示出相较于最先进的融合基线更优的预测性能和更清晰的模态贡献归因。
- 开源实现(Python),在 MIT 许可证下发布,支持立即实验并可集成到现有流水线。
方法论
- 潜在编码 – 将每个模态 (M_i) 通过模态特定的编码器(例如浅层 MLP 或 CNN)映射为潜在向量 (Z_i)。
- 逆正态变换 – 将连续目标 (Y) 通过逆正态(分位数)映射转换为类似高斯的变量 (\tilde{Y}),从而使联合分布 ((Z_1,\dots,Z_K,\tilde{Y})) 能够被建模为多元高斯分布。
- 部分信息分解 (PID) – 在高斯假设下,任意潜在子集与 (\tilde{Y}) 之间的互信息可以解析表达。PID 将该信息分解为:
- 唯一信息 (U_i):仅由模态 (i) 提供的信息,
- 冗余信息 (R):在多个模态之间共享的信息,
- 协同信息 (S):只有在模态组合时才出现的信息。
- 条件独立正则化器 – 通过闭式形式的惩罚项将协方差矩阵推向块对角结构,鼓励每个 (Z_i) 只捕获其唯一成分。
- 训练目标 – 最终损失将标准回归损失(例如对原始目标的 MSE)与基于 PID 的正则化项相结合,在准确性和可解释性之间取得平衡。
所有步骤均可微分,整个系统可以使用标准优化器(Adam、SGD)端到端训练。
结果与发现
| 数据集 | 指标(越低越好) | 基线(后期融合) | PIDReg(提出的方法) |
|---|---|---|---|
| UCI Housing | RMSE 2.31 | 2.58 | 2.12 |
| 多模态传感器(activity) | MAE 0.84 | 0.97 | 0.78 |
| 脑龄(MRI + fMRI + DTI) | MAE 3.4 years | 4.1 years | 3.0 years |
- 预测增益:在所有六个数据集上,PIDReg 相较于最强基线提升了 5‑15 % 的准确性。
- 可解释性:PID 分解显示,例如在脑龄任务中,DTI 模态贡献约 45 % 的独特信息,而 MRI 和 fMRI 共享约 30 % 的冗余信息,并共同提供约 25 % 的协同增益。
- 模态选择:通过检查独特信息得分,作者展示了去除低独特性模态(如脑龄案例中的 fMRI)可将推理成本降低约 30 %,MAE 仅增加 < 0.2 年。
Practical Implications
- Model debugging & feature engineering – 开发者可以精准定位到底是哪个传感器或数据流在驱动预测,从而帮助优先安排数据收集或传感器维护。
- Resource‑aware deployment – 唯一信息分数充当一种原则性的“重要性”度量,使得能够实现动态模态门控(例如,仅在预期收益超过阈值时才请求高成本模态)。
- Regulatory compliance – 在医疗等领域,能够解释每种成像模态如何贡献,满足日益增长的透明度要求。
- Transferable toolkit – 由于该方法仅需对潜在空间作高斯假设,可轻松嵌入现有的多模态流水线(视觉+文本、音频+传感器等),几乎不需改动架构。
限制与未来工作
- 高斯性假设 – 虽然在分析上很方便,但在高度非线性潜在空间中可能不成立;作者指出在极度偏斜的数据上性能会下降。
- PID 项的可扩展性 – 当前的闭式解随模态数量呈二次增长;要扩展到数十个流需要采用近似方法。
- 向分类的扩展 – 本文聚焦于回归;将 PID 分解适用于分类目标留作未来工作。
- 对噪声模态的鲁棒性 – 初步实验表明正则项可能对噪声输入过度惩罚,因此正在探索更自适应的加权方案。
总体而言,该工作提供了一个扎实且数学上有依据的桥梁,将多模态融合性能与可解释性联系起来——这是一项开发者可以立即利用的进展,同时社区正推动该方法向更广泛、更复杂的场景发展。
作者
- Zhaozhao Ma
- Shujian Yu
论文信息
- arXiv ID: 2512.22102v1
- 类别: cs.LG
- 发布日期: 2025年12月26日
- PDF: 下载 PDF