[Paper] 使用 CLIP 通过双通道文本提示和图像增强进行视觉词义消歧

发布: (2026年2月6日 GMT+8 23:53)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.06799v1

概述

本文解决了一个出乎意料的实际问题:当一个词有多重含义时,能否挑选出与所指意义相匹配的正确图像?
作者构建了一个轻量级的 Visual Word Sense Disambiguation (VWSD) 系统,基于 CLIP,在文本端使用巧妙的提示进行增强,并在推理时施加适度的图像增强。在 SemEval‑2023 VWSD 基准测试中,他们将 mean reciprocal rank (MRR) 从 0.72 提升至 0.76,命中率提升约 4 %,且模型能够实时运行。

关键贡献

  • 双通道文本提示:语义通道(WordNet 同义词)与照片风格通道(如 “a photo of …” 的短语)相结合,生成更丰富的 CLIP 兼容查询。
  • 测试时图像增强管线: 在嵌入之前,对每个候选图像应用稳健且低成本的变换(裁剪、颜色抖动、翻转),平滑视觉噪声。
  • 简单的相似度推理: 在 CLIP 的联合空间中使用余弦相似度对候选图像进行排序,避免对庞大的 CLIP 主干进行微调。
  • 全面的消融实验: 表明双提示设计贡献了大部分提升,而激进的增强仅带来微小改进。
  • 探索性的多语言与基于定义的提示: 证明嘈杂的外部信号(例如完整的 WordNet 释义、翻译)实际上会削弱性能,凸显简洁、与 CLIP 对齐的提示的价值。

方法论

  1. 基础模型 – CLIP: 作者使用预训练的 CLIP(ViT‑B/32),该模型已经能够将文本和图像映射到共同的向量空间。对 CLIP 权重不进行额外训练。
  2. 文本增强:
    • 语义通道: 对于歧义词(例如 “bank”),检索其 WordNet 同义词(例如 “financial institution”、 “river edge”)。
    • 图片通道: 在每个同义词前加上视觉提示(“a photo of …”),将纯词汇转化为适合图像的短语。
    • 两个通道分别进行编码;得到的向量取平均,形成最终的文本嵌入。
  3. 图像处理: 对每个候选图像应用一组确定性的增强(随机尺寸裁剪、水平翻转、轻微颜色抖动)。对增强后的图像进行编码,并将其嵌入取平均,得到更稳健的图像表示。
  4. 评分: 计算增强文本向量与每个图像向量之间的余弦相似度,以此进行排序;排名最高的图像即为消歧后的意义。
  5. 评估: 在 SemEval‑2023 VWSD 数据集上测试系统,该数据集提供歧义词列表以及每个词的多个候选图像。报告标准 VWSD 指标(MRR、Hit@1)。

结果与发现

指标基线(原始 CLIP)+ 双通道提示+ 图像增强完整系统
MRR0.72270.74930.75100.7590
Hit@10.58100.60750.61400.6220
  • 提示是关键因素: 仅添加双通道提示即可带来约 3 % 的绝对 MRR 提升。
  • 增强是适度的助推器: 测试时的变换额外提升约 0.5 % 的 MRR,说明它们有帮助但不是主要驱动因素。
  • 噪声信号有害: 使用完整的 WordNet 定义或多语言同义词集的实验会降低性能,表明 CLIP 更倾向于简洁、视觉关联的表述。

Practical Implications

  • Search & recommendation: 电子商务平台可以通过将用户查询(如“apple”——水果或设备)与产品图像匹配,而无需训练自定义视觉模型,从而消除歧义。
  • Content moderation: 自动化系统可以更好地标记引用非法图像的模糊文本,通过将意义与视觉候选项对应。
  • Multimodal assistants: 需要为口头词语获取“正确图片”的语音助手可以将此轻量级管道接入现有的基于 CLIP 的后端。
  • Low‑resource deployment: 由于该方法仅在冻结的 CLIP 模型上进行推理时的操作,可在普通 GPU 或甚至设备端加速器上以亚秒级延迟运行。

限制与未来工作

  • 依赖 CLIP 的预训练领域: CLIP 从未见过的稀有或高度专业化的词义仍可能被错误排序。
  • 提示工程仍需手动: 双通道提示是手工制作的;自动提示生成或学习加权可能进一步提升鲁棒性。
  • 对大规模候选池的可扩展性: 当前设置在每个词上评估的图像数量有限;若要扩展到成千上万的候选项,需要高效的索引(例如 FAISS)。
  • 多语言扩展: 初步测试表明嘈杂的多语言同义词会降低性能;未来工作可以探索语言特定的 CLIP 变体或跨语言对齐技术。

底线: 通过将一个简单的提示工程技巧与测试时图像增强相结合,作者展示了即使不进行大量模型再训练,也能在视觉词义消歧上获得显著提升。对于构建多模态产品的开发者而言,这一方案提供了一种即时、低成本的方式,使模糊的语言更加具体且可操作。

作者

  • Shamik Bhattacharya
  • Daniel Perkins
  • Yaren Dogan
  • Vineeth Konjeti
  • Sudarshan Srinivasan
  • Edmon Begoli

论文信息

  • arXiv ID: 2602.06799v1
  • 分类: cs.CL
  • 发布日期: 2026年2月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »