[论文] 越多越好:用于高阶多模态对齐的对比融合
发布: (2025年11月26日 GMT+8 20:25)
7 min read
原文: arXiv
Source: arXiv - 2511.21331v1
Overview
本文介绍了 对比融合(ConFu),一种用于学习任意数量模态(如图像、文本、音频)联合嵌入的新框架。不同于大多数仅对齐两模态的现有方法,ConFu 同时保留成对关系 并且 捕获更高阶交互(类似 “XOR‑style” 的依赖),通过在对比学习目标中将融合模态组合视为一等公民。其结果是一个统一的嵌入空间,既适用于多模态检索,也适用于单模态下游任务。
Key Contributions
- 统一的对比目标,共同优化:
- 传统的成对模态对齐。
- 新颖的 融合模态 对比项,将一对模态与第三个(或更多)融合表示对齐。
- 高阶依赖建模:展示了捕获仅靠成对对齐无法发现的关系(例如 XOR‑类模式)的能力。
- 一体化检索:在同一训练流水线中支持一对一(image ↔ text)和二对一(image + audio ↔ text)查询。
- 广泛评估:在合成基准(用于隔离高阶效应)和真实数据集(如 MS‑COCO、Flickr30K、AudioSet)上进行实验,显示在检索和分类任务上具有竞争或更优的性能。
- 可扩展性分析:实验证明 ConFu 的性能随模态数量增加而平稳下降。
Methodology
- 主干编码器 – 每种模态(图像、文本、音频等)使用专属编码器(ResNet、BERT、VGGish 等)处理。根据实验,编码器可以冻结或微调。
- 融合模块 – 对任意模态子集,其嵌入通过简单的 逐元素相加 再加线性投影进行组合。得到的 融合表示 与单模态嵌入维度相同。
- 对比损失扩展 –
- 成对项:经典的 InfoNCE 损失,将匹配对(如 image ↔ caption)拉近,非匹配对拉远。
- 融合模态项:额外的对比目标,将融合嵌入(如 image + audio)作为锚点并与剩余模态(如 text)对齐。该损失是对称的,使得融合表示也学习接近每个组成模态。
- 训练循环 – 所有项按超参数 λ 加权求和。模型端到端使用随机梯度下降进行训练,并对每种模态使用标准数据增强。
- 推理 – 由于所有模态及其融合组合共享同一嵌入空间,单一次最近邻搜索即可回答任何检索查询(单模态或多模态)。
Results & Findings
| 数据集 | 任务 | 指标(越高越好) | 基线(成对) | ConFu |
|---|---|---|---|---|
| MS‑COCO(图像‑文本) | 1‑对‑1 检索 | Recall@1 | 45.2 % | 48.7 % |
| Flickr30K(图像‑文本‑音频) | 2‑对‑1 检索(image + audio → text) | Recall@5 | 31.8 % | 36.4 % |
| 合成 XOR 基准 | XOR‑型标签分类 | Accuracy | 62 % | 84 % |
| AudioSet(音频‑视频‑文本) | 多模态分类 | mAP | 21.5 | 24.3 |
- 高阶捕获:在合成 XOR 任务上,ConFu 能恢复成对模型完全错过的隐藏关系。
- 统一检索:单一模型即可处理一对一和二对一查询,无需额外微调。
- 可扩展性:加入第四种模态(如深度)仅导致性能下降约 2 %(相对),验证了方法的鲁棒性。
总体而言,ConFu 在匹配或超越最先进的成对对比模型的同时,提供了更丰富的多模态推理能力。
Practical Implications
- 搜索引擎与推荐系统 – 开发者可以构建单一索引,支持诸如 “展示与该字幕 且 该短音频匹配的图像” 的查询,而无需为每种查询类型训练独立模型。
- 跨模态内容创作工具 – 自动生成字幕、标题或配乐的工具可利用高阶嵌入,确保生成的模态遵循其他模态的联合语义。
- 边缘友好部署 – 由于融合步骤仅是线性投影,相比普通成对对比模型额外计算量极小,适合设备端推理(如结合视觉与音频线索的 AR 眼镜)。
- 数据效率 – 通过保留成对对齐,ConFu 在测试时即使只出现部分模态也能保持良好表现,这在传感器缺失的真实流水线中尤为常见。
Limitations & Future Work
- 融合简易性 – 当前的逐元素相加 + 线性投影可能不足以捕获非常异构模态(如视频 + 3‑D 点云)的复杂交互。更具表现力的融合方式(注意力、跨模态 Transformer)有望提升性能。
- 训练成本 – 增加融合模态对比项会提升负样本数量,导致大批量训练时显存占用增加。高效的负样本挖掘策略仍是待探索的方向。
- 模态数量受限 – 实验最多涉及三至四种模态;扩展到数十种(如传感器网络)可能需要层次化融合或课程学习等技术。
- 理论分析 – 虽然实验展示了高阶捕获能力,但 ConFu 能表示的函数类的形式化证明仍有待研究。
结论:对比融合提供了一套务实、开发者友好的方案,用于构建超越简单成对匹配的多模态系统,为更丰富、上下文感知的 AI 产品打开了可能性。
Authors
- Stefanos Koutoupis
- Michaela Areti Zervou
- Konstantinos Kontras
- Maarten De Vos
- Panagiotis Tsakalides
- Grigorios Tsagatakis
Paper Information
- arXiv ID: 2511.21331v1
- Categories: cs.CV, cs.AI
- Published: November 26, 2025
- PDF: Download PDF