[Paper] 使用 CLIP 通过双通道文本提示和图像增强进行视觉词义消歧
发布: (2026年2月6日 GMT+8 23:53)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.06799v1
概述
本文解决了一个出乎意料的实际问题:当一个词有多重含义时,能否挑选出与所指意义相匹配的正确图像?
作者构建了一个轻量级的 Visual Word Sense Disambiguation (VWSD) 系统,基于 CLIP,在文本端使用巧妙的提示进行增强,并在推理时施加适度的图像增强。在 SemEval‑2023 VWSD 基准测试中,他们将 mean reciprocal rank (MRR) 从 0.72 提升至 0.76,命中率提升约 4 %,且模型能够实时运行。
关键贡献
- 双通道文本提示: 将语义通道(WordNet 同义词)与照片风格通道(如 “a photo of …” 的短语)相结合,生成更丰富的 CLIP 兼容查询。
- 测试时图像增强管线: 在嵌入之前,对每个候选图像应用稳健且低成本的变换(裁剪、颜色抖动、翻转),平滑视觉噪声。
- 简单的相似度推理: 在 CLIP 的联合空间中使用余弦相似度对候选图像进行排序,避免对庞大的 CLIP 主干进行微调。
- 全面的消融实验: 表明双提示设计贡献了大部分提升,而激进的增强仅带来微小改进。
- 探索性的多语言与基于定义的提示: 证明嘈杂的外部信号(例如完整的 WordNet 释义、翻译)实际上会削弱性能,凸显简洁、与 CLIP 对齐的提示的价值。
方法论
- 基础模型 – CLIP: 作者使用预训练的 CLIP(ViT‑B/32),该模型已经能够将文本和图像映射到共同的向量空间。对 CLIP 权重不进行额外训练。
- 文本增强:
- 语义通道: 对于歧义词(例如 “bank”),检索其 WordNet 同义词(例如 “financial institution”、 “river edge”)。
- 图片通道: 在每个同义词前加上视觉提示(“a photo of …”),将纯词汇转化为适合图像的短语。
- 两个通道分别进行编码;得到的向量取平均,形成最终的文本嵌入。
- 图像处理: 对每个候选图像应用一组确定性的增强(随机尺寸裁剪、水平翻转、轻微颜色抖动)。对增强后的图像进行编码,并将其嵌入取平均,得到更稳健的图像表示。
- 评分: 计算增强文本向量与每个图像向量之间的余弦相似度,以此进行排序;排名最高的图像即为消歧后的意义。
- 评估: 在 SemEval‑2023 VWSD 数据集上测试系统,该数据集提供歧义词列表以及每个词的多个候选图像。报告标准 VWSD 指标(MRR、Hit@1)。
结果与发现
| 指标 | 基线(原始 CLIP) | + 双通道提示 | + 图像增强 | 完整系统 |
|---|---|---|---|---|
| MRR | 0.7227 | 0.7493 | 0.7510 | 0.7590 |
| Hit@1 | 0.5810 | 0.6075 | 0.6140 | 0.6220 |
- 提示是关键因素: 仅添加双通道提示即可带来约 3 % 的绝对 MRR 提升。
- 增强是适度的助推器: 测试时的变换额外提升约 0.5 % 的 MRR,说明它们有帮助但不是主要驱动因素。
- 噪声信号有害: 使用完整的 WordNet 定义或多语言同义词集的实验会降低性能,表明 CLIP 更倾向于简洁、视觉关联的表述。
Practical Implications
- Search & recommendation: 电子商务平台可以通过将用户查询(如“apple”——水果或设备)与产品图像匹配,而无需训练自定义视觉模型,从而消除歧义。
- Content moderation: 自动化系统可以更好地标记引用非法图像的模糊文本,通过将意义与视觉候选项对应。
- Multimodal assistants: 需要为口头词语获取“正确图片”的语音助手可以将此轻量级管道接入现有的基于 CLIP 的后端。
- Low‑resource deployment: 由于该方法仅在冻结的 CLIP 模型上进行推理时的操作,可在普通 GPU 或甚至设备端加速器上以亚秒级延迟运行。
限制与未来工作
- 依赖 CLIP 的预训练领域: CLIP 从未见过的稀有或高度专业化的词义仍可能被错误排序。
- 提示工程仍需手动: 双通道提示是手工制作的;自动提示生成或学习加权可能进一步提升鲁棒性。
- 对大规模候选池的可扩展性: 当前设置在每个词上评估的图像数量有限;若要扩展到成千上万的候选项,需要高效的索引(例如 FAISS)。
- 多语言扩展: 初步测试表明嘈杂的多语言同义词会降低性能;未来工作可以探索语言特定的 CLIP 变体或跨语言对齐技术。
底线: 通过将一个简单的提示工程技巧与测试时图像增强相结合,作者展示了即使不进行大量模型再训练,也能在视觉词义消歧上获得显著提升。对于构建多模态产品的开发者而言,这一方案提供了一种即时、低成本的方式,使模糊的语言更加具体且可操作。
作者
- Shamik Bhattacharya
- Daniel Perkins
- Yaren Dogan
- Vineeth Konjeti
- Sudarshan Srinivasan
- Edmon Begoli
论文信息
- arXiv ID: 2602.06799v1
- 分类: cs.CL
- 发布日期: 2026年2月6日
- PDF: 下载 PDF