[论文] 越多越好：用于高阶多模态对齐的对比融合

发布: 5个月前 (2025年11月26日 GMT+8 20:25)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.21331v1

Overview

本文介绍了 对比融合（ConFu），一种用于学习任意数量模态（如图像、文本、音频）联合嵌入的新框架。不同于大多数仅对齐两模态的现有方法，ConFu 同时保留成对关系并且捕获更高阶交互（类似 “XOR‑style” 的依赖），通过在对比学习目标中将融合模态组合视为一等公民。其结果是一个统一的嵌入空间，既适用于多模态检索，也适用于单模态下游任务。

Key Contributions

统一的对比目标，共同优化：
1. 传统的成对模态对齐。
2. 新颖的 融合模态 对比项，将一对模态与第三个（或更多）融合表示对齐。
高阶依赖建模：展示了捕获仅靠成对对齐无法发现的关系（例如 XOR‑类模式）的能力。
一体化检索：在同一训练流水线中支持一对一（image ↔ text）和二对一（image + audio ↔ text）查询。
广泛评估：在合成基准（用于隔离高阶效应）和真实数据集（如 MS‑COCO、Flickr30K、AudioSet）上进行实验，显示在检索和分类任务上具有竞争或更优的性能。
可扩展性分析：实验证明 ConFu 的性能随模态数量增加而平稳下降。

Methodology

主干编码器 – 每种模态（图像、文本、音频等）使用专属编码器（ResNet、BERT、VGGish 等）处理。根据实验，编码器可以冻结或微调。
融合模块 – 对任意模态子集，其嵌入通过简单的 逐元素相加 再加线性投影进行组合。得到的 融合表示 与单模态嵌入维度相同。
对比损失扩展 –
- 成对项：经典的 InfoNCE 损失，将匹配对（如 image ↔ caption）拉近，非匹配对拉远。
- 融合模态项：额外的对比目标，将融合嵌入（如 image + audio）作为锚点并与剩余模态（如 text）对齐。该损失是对称的，使得融合表示也学习接近每个组成模态。
训练循环 – 所有项按超参数 λ 加权求和。模型端到端使用随机梯度下降进行训练，并对每种模态使用标准数据增强。
推理 – 由于所有模态及其融合组合共享同一嵌入空间，单一次最近邻搜索即可回答任何检索查询（单模态或多模态）。

Results & Findings

数据集	任务	指标（越高越好）	基线（成对）	ConFu
MS‑COCO（图像‑文本）	1‑对‑1 检索	Recall@1	45.2 %	48.7 %
Flickr30K（图像‑文本‑音频）	2‑对‑1 检索（image + audio → text）	Recall@5	31.8 %	36.4 %
合成 XOR 基准	XOR‑型标签分类	Accuracy	62 %	84 %
AudioSet（音频‑视频‑文本）	多模态分类	mAP	21.5	24.3

高阶捕获：在合成 XOR 任务上，ConFu 能恢复成对模型完全错过的隐藏关系。
统一检索：单一模型即可处理一对一和二对一查询，无需额外微调。
可扩展性：加入第四种模态（如深度）仅导致性能下降约 2 %（相对），验证了方法的鲁棒性。

总体而言，ConFu 在匹配或超越最先进的成对对比模型的同时，提供了更丰富的多模态推理能力。

Practical Implications

搜索引擎与推荐系统 – 开发者可以构建单一索引，支持诸如 “展示与该字幕且该短音频匹配的图像” 的查询，而无需为每种查询类型训练独立模型。
跨模态内容创作工具 – 自动生成字幕、标题或配乐的工具可利用高阶嵌入，确保生成的模态遵循其他模态的联合语义。
边缘友好部署 – 由于融合步骤仅是线性投影，相比普通成对对比模型额外计算量极小，适合设备端推理（如结合视觉与音频线索的 AR 眼镜）。
数据效率 – 通过保留成对对齐，ConFu 在测试时即使只出现部分模态也能保持良好表现，这在传感器缺失的真实流水线中尤为常见。

Limitations & Future Work

融合简易性 – 当前的逐元素相加 + 线性投影可能不足以捕获非常异构模态（如视频 + 3‑D 点云）的复杂交互。更具表现力的融合方式（注意力、跨模态 Transformer）有望提升性能。
训练成本 – 增加融合模态对比项会提升负样本数量，导致大批量训练时显存占用增加。高效的负样本挖掘策略仍是待探索的方向。
模态数量受限 – 实验最多涉及三至四种模态；扩展到数十种（如传感器网络）可能需要层次化融合或课程学习等技术。
理论分析 – 虽然实验展示了高阶捕获能力，但 ConFu 能表示的函数类的形式化证明仍有待研究。

结论：对比融合提供了一套务实、开发者友好的方案，用于构建超越简单成对匹配的多模态系统，为更丰富、上下文感知的 AI 产品打开了可能性。

Authors

Stefanos Koutoupis
Michaela Areti Zervou
Konstantinos Kontras
Maarten De Vos
Panagiotis Tsakalides
Grigorios Tsagatakis

Paper Information

arXiv ID: 2511.21331v1
Categories: cs.CV, cs.AI
Published: November 26, 2025
PDF: Download PDF

[论文] 越多越好：用于高阶多模态对齐的对比融合

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

相关文章

[Paper] Physics-Informed Neural Networks 用于热物性属性检索

[Paper] 面向自动安全驾驶指令：大规模视觉语言模型方法

[Paper] TraceGen：在 3D 轨迹空间中的世界建模实现跨体态视频学习

[论文] G$^2$VLM: 基于几何的视觉语言模型，具备统一的 3D 重建与空间推理