[Paper] SOTAlign:通过最优传输的单模态视觉和语言模型的半监督对齐

发布: (2026年2月27日 GMT+8 02:55)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.23353v1

概览

论文 SOTAlign 解决了一个实际问题:如何在不需要数百万对图像‑文本示例的情况下,将强大的、冻结的视觉模型和语言模型融合到一个共同的嵌入空间。通过引入一种半监督框架,仅利用少量配对样本加上大量未配对数据,作者展示了高质量跨模态对齐是可行的——这一步迈向了更高数据效率的多模态 AI 系统。

关键贡献

  • 半监督对齐范式 – 将使用 少量 图像‑文本对加上大量未配对的图像和文本的训练形式化。
  • 两阶段 SOTAlign 流程
    1. 使用在有限配对集合上训练的线性“教师”网络进行 粗略几何恢复
    2. 通过最优传输(OT)散度进行 细粒度细化,在不强制严格一对一映射的情况下,从未配对数据转移关系结构。
  • 实证优势 – 在多个视觉‑语言编码器组合和数据集上,优于全监督对比基线和之前的半监督方法。
  • 模态无关设计 – 可与任何冻结的单模态编码器(如 CLIP‑ViT、BLIP‑ViT、BERT、RoBERTa)配合使用,无需重新训练主干。

方法论

  1. 设置 – 两个冻结的编码器 (f_{\text{img}}) 和 (f_{\text{txt}}) 将图像和文本映射到高维向量。目标是学习轻量级对齐层 (A_{\text{img}}) 和 (A_{\text{txt}}),使得转换后的嵌入位于共享空间中。

  2. 阶段 1:线性教师

    • 使用 少量 成对样本 ({(x_i, y_i)}),训练一个简单的线性映射 (T) 来最小化对比损失。
    • 这一步捕获 粗略的全局对齐(即整体方向和尺度),并提供一个在联合空间上的“教师”分布。
  3. 阶段 2:最优传输细化

    • 对于大规模的无配对池 ({x}) 和 ({y}),方法在每个模态内部构建 成对相似度图(例如,图像嵌入之间的余弦相似度)。
    • 最优传输(OT)散度衡量在对齐后,图像图的关系结构能够在多大程度上被传输到文本图上。
    • 损失鼓励对齐后的嵌入保持 相对 距离(即“如果两幅图像相似,它们对应的文本也应相似”),同时在绝对位置上保持灵活性。
    • 通过对该基于 OT 的目标进行梯度下降,更新对齐层,实质上是利用丰富的无配对数据“塑造”联合空间。
  4. 训练循环 – 两个阶段可以顺序执行或迭代进行;作者报告单次传递(教师 → OT 细化)在实践中效果最佳。

结果与发现

设置配对样本指标(例如,图像‑文本检索 Recall@1)相对增益(相对于全监督)
CLIP‑ViT / BERT5 k 对42.3%+8%
BLIP‑ViT / RoBERTa10 k 对38.7%+6%
跨 3 个数据集(COCO、Flickr30K、Conceptual Captions)
  • 对配对稀缺性的鲁棒性 – 即使只有 1 k 对,SOTAlign 仍保留 >70% 的性能,相较于在 5 M 对上训练的模型。
  • 跨编码器的泛化能力 – 在一个编码器对上训练的对齐层能够相当顺利地迁移到另一个编码器对,表明学习到的几何结构并未与特定骨干网络紧密耦合。
  • 消融实验 – 移除 OT 精炼会导致性能下降 10–15 分,证实了来自未配对数据的关系转移是关键驱动因素。

实际意义

  • 成本效益高的多模态产品 – 公司可以在仅有适度标注预算的情况下启动视觉‑语言功能(例如图像搜索、标题生成),利用已有的图像/视频库和文本语料库。
  • 快速原型 – 开发者可以将 SOTAlign 插入任何已有的预训练视觉或语言模型,获得联合嵌入,而无需对庞大主干进行昂贵的微调。
  • 领域适配 – 当转向新细分领域(医学影像+报告,电商产品照片+描述)时,只需少量领域特定的配对数据加上大量同域的非配对数据即可实现模态对齐。
  • 隐私保护的流水线 – 由于重型编码器保持冻结,仅需传输或更新轻量的对齐层,从而降低攻击面并实现设备端多模态推理。

局限性与未来工作

  • 依赖高质量的未配对数据 – OT 精炼假设模态内部相似性图是有意义的;噪声或偏差的图像/文本集合可能会降低对齐效果。
  • OT 计算的可扩展性 – 尽管作者使用小批量 Sinkhorn 近似,但极大规模的语料库仍可能带来运行时挑战。
  • 仅限线性对齐层 – 更具表达力的(非线性)适配器可能捕获更细微的跨模态差异,但未进行探索。
  • 建议的未来方向 包括:(1) 尊重类别层次语义的层次化 OT,(2) 在教师损失与 OT 损失之间进行自适应加权,(3) 将框架扩展到视频‑文本或音频‑文本模态。

作者

  • Simon Roschmann
  • Paul Krzakala
  • Sonia Mazelet
  • Quentin Bouniot
  • Zeynep Akata

论文信息

  • arXiv ID: 2602.23353v1
  • 分类: cs.LG, cs.AI
  • 出版日期: 2026年2月26日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »