[论文] 越多越好:用于高阶多模态对齐的对比融合

发布: (2025年11月26日 GMT+8 20:25)
7 min read
原文: arXiv

Source: arXiv - 2511.21331v1

Overview

本文介绍了 对比融合(ConFu),一种用于学习任意数量模态(如图像、文本、音频)联合嵌入的新框架。不同于大多数仅对齐两模态的现有方法,ConFu 同时保留成对关系 并且 捕获更高阶交互(类似 “XOR‑style” 的依赖),通过在对比学习目标中将融合模态组合视为一等公民。其结果是一个统一的嵌入空间,既适用于多模态检索,也适用于单模态下游任务。

Key Contributions

  • 统一的对比目标,共同优化:
    1. 传统的成对模态对齐。
    2. 新颖的 融合模态 对比项,将一对模态与第三个(或更多)融合表示对齐。
  • 高阶依赖建模:展示了捕获仅靠成对对齐无法发现的关系(例如 XOR‑类模式)的能力。
  • 一体化检索:在同一训练流水线中支持一对一(image ↔ text)和二对一(image + audio ↔ text)查询。
  • 广泛评估:在合成基准(用于隔离高阶效应)和真实数据集(如 MS‑COCO、Flickr30K、AudioSet)上进行实验,显示在检索和分类任务上具有竞争或更优的性能。
  • 可扩展性分析:实验证明 ConFu 的性能随模态数量增加而平稳下降。

Methodology

  1. 主干编码器 – 每种模态(图像、文本、音频等)使用专属编码器(ResNet、BERT、VGGish 等)处理。根据实验,编码器可以冻结或微调。
  2. 融合模块 – 对任意模态子集,其嵌入通过简单的 逐元素相加 再加线性投影进行组合。得到的 融合表示 与单模态嵌入维度相同。
  3. 对比损失扩展
    • 成对项:经典的 InfoNCE 损失,将匹配对(如 image ↔ caption)拉近,非匹配对拉远。
    • 融合模态项:额外的对比目标,将融合嵌入(如 image + audio)作为锚点并与剩余模态(如 text)对齐。该损失是对称的,使得融合表示也学习接近每个组成模态。
  4. 训练循环 – 所有项按超参数 λ 加权求和。模型端到端使用随机梯度下降进行训练,并对每种模态使用标准数据增强。
  5. 推理 – 由于所有模态及其融合组合共享同一嵌入空间,单一次最近邻搜索即可回答任何检索查询(单模态或多模态)。

Results & Findings

数据集任务指标(越高越好)基线(成对)ConFu
MS‑COCO(图像‑文本)1‑对‑1 检索Recall@145.2 %48.7 %
Flickr30K(图像‑文本‑音频)2‑对‑1 检索(image + audio → text)Recall@531.8 %36.4 %
合成 XOR 基准XOR‑型标签分类Accuracy62 %84 %
AudioSet(音频‑视频‑文本)多模态分类mAP21.524.3
  • 高阶捕获:在合成 XOR 任务上,ConFu 能恢复成对模型完全错过的隐藏关系。
  • 统一检索:单一模型即可处理一对一和二对一查询,无需额外微调。
  • 可扩展性:加入第四种模态(如深度)仅导致性能下降约 2 %(相对),验证了方法的鲁棒性。

总体而言,ConFu 在匹配或超越最先进的成对对比模型的同时,提供了更丰富的多模态推理能力。

Practical Implications

  • 搜索引擎与推荐系统 – 开发者可以构建单一索引,支持诸如 “展示与该字幕 该短音频匹配的图像” 的查询,而无需为每种查询类型训练独立模型。
  • 跨模态内容创作工具 – 自动生成字幕、标题或配乐的工具可利用高阶嵌入,确保生成的模态遵循其他模态的联合语义。
  • 边缘友好部署 – 由于融合步骤仅是线性投影,相比普通成对对比模型额外计算量极小,适合设备端推理(如结合视觉与音频线索的 AR 眼镜)。
  • 数据效率 – 通过保留成对对齐,ConFu 在测试时即使只出现部分模态也能保持良好表现,这在传感器缺失的真实流水线中尤为常见。

Limitations & Future Work

  • 融合简易性 – 当前的逐元素相加 + 线性投影可能不足以捕获非常异构模态(如视频 + 3‑D 点云)的复杂交互。更具表现力的融合方式(注意力、跨模态 Transformer)有望提升性能。
  • 训练成本 – 增加融合模态对比项会提升负样本数量,导致大批量训练时显存占用增加。高效的负样本挖掘策略仍是待探索的方向。
  • 模态数量受限 – 实验最多涉及三至四种模态;扩展到数十种(如传感器网络)可能需要层次化融合或课程学习等技术。
  • 理论分析 – 虽然实验展示了高阶捕获能力,但 ConFu 能表示的函数类的形式化证明仍有待研究。

结论:对比融合提供了一套务实、开发者友好的方案,用于构建超越简单成对匹配的多模态系统,为更丰富、上下文感知的 AI 产品打开了可能性。

Authors

  • Stefanos Koutoupis
  • Michaela Areti Zervou
  • Konstantinos Kontras
  • Maarten De Vos
  • Panagiotis Tsakalides
  • Grigorios Tsagatakis

Paper Information

  • arXiv ID: 2511.21331v1
  • Categories: cs.CV, cs.AI
  • Published: November 26, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »