[Paper] 使用 CLIP 通过双通道文本提示和图像增强进行视觉词义消歧

发布: 3天前 (2026年2月6日 GMT+8 23:53)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.06799v1

概述

本文解决了一个出乎意料的实际问题：当一个词有多重含义时，能否挑选出与所指意义相匹配的正确图像？
作者构建了一个轻量级的 Visual Word Sense Disambiguation (VWSD) 系统，基于 CLIP，在文本端使用巧妙的提示进行增强，并在推理时施加适度的图像增强。在 SemEval‑2023 VWSD 基准测试中，他们将 mean reciprocal rank (MRR) 从 0.72 提升至 0.76，命中率提升约 4 %，且模型能够实时运行。

关键贡献

双通道文本提示: 将语义通道（WordNet 同义词）与照片风格通道（如 “a photo of …” 的短语）相结合，生成更丰富的 CLIP 兼容查询。
测试时图像增强管线: 在嵌入之前，对每个候选图像应用稳健且低成本的变换（裁剪、颜色抖动、翻转），平滑视觉噪声。
简单的相似度推理: 在 CLIP 的联合空间中使用余弦相似度对候选图像进行排序，避免对庞大的 CLIP 主干进行微调。
全面的消融实验: 表明双提示设计贡献了大部分提升，而激进的增强仅带来微小改进。
探索性的多语言与基于定义的提示: 证明嘈杂的外部信号（例如完整的 WordNet 释义、翻译）实际上会削弱性能，凸显简洁、与 CLIP 对齐的提示的价值。

方法论

基础模型 – CLIP： 作者使用预训练的 CLIP（ViT‑B/32），该模型已经能够将文本和图像映射到共同的向量空间。对 CLIP 权重不进行额外训练。
文本增强：
- 语义通道： 对于歧义词（例如 “bank”），检索其 WordNet 同义词（例如 “financial institution”、 “river edge”）。
- 图片通道： 在每个同义词前加上视觉提示（“a photo of …”），将纯词汇转化为适合图像的短语。
- 两个通道分别进行编码；得到的向量取平均，形成最终的文本嵌入。
图像处理： 对每个候选图像应用一组确定性的增强（随机尺寸裁剪、水平翻转、轻微颜色抖动）。对增强后的图像进行编码，并将其嵌入取平均，得到更稳健的图像表示。
评分： 计算增强文本向量与每个图像向量之间的余弦相似度，以此进行排序；排名最高的图像即为消歧后的意义。
评估： 在 SemEval‑2023 VWSD 数据集上测试系统，该数据集提供歧义词列表以及每个词的多个候选图像。报告标准 VWSD 指标（MRR、Hit@1）。

结果与发现

指标	基线（原始 CLIP）	+ 双通道提示	+ 图像增强	完整系统
MRR	0.7227	0.7493	0.7510	0.7590
Hit@1	0.5810	0.6075	0.6140	0.6220

提示是关键因素： 仅添加双通道提示即可带来约 3 % 的绝对 MRR 提升。
增强是适度的助推器： 测试时的变换额外提升约 0.5 % 的 MRR，说明它们有帮助但不是主要驱动因素。
噪声信号有害： 使用完整的 WordNet 定义或多语言同义词集的实验会降低性能，表明 CLIP 更倾向于简洁、视觉关联的表述。

Practical Implications

Search & recommendation: 电子商务平台可以通过将用户查询（如“apple”——水果或设备）与产品图像匹配，而无需训练自定义视觉模型，从而消除歧义。
Content moderation: 自动化系统可以更好地标记引用非法图像的模糊文本，通过将意义与视觉候选项对应。
Multimodal assistants: 需要为口头词语获取“正确图片”的语音助手可以将此轻量级管道接入现有的基于 CLIP 的后端。
Low‑resource deployment: 由于该方法仅在冻结的 CLIP 模型上进行推理时的操作，可在普通 GPU 或甚至设备端加速器上以亚秒级延迟运行。

限制与未来工作

依赖 CLIP 的预训练领域： CLIP 从未见过的稀有或高度专业化的词义仍可能被错误排序。
提示工程仍需手动： 双通道提示是手工制作的；自动提示生成或学习加权可能进一步提升鲁棒性。
对大规模候选池的可扩展性： 当前设置在每个词上评估的图像数量有限；若要扩展到成千上万的候选项，需要高效的索引（例如 FAISS）。
多语言扩展： 初步测试表明嘈杂的多语言同义词会降低性能；未来工作可以探索语言特定的 CLIP 变体或跨语言对齐技术。

底线： 通过将一个简单的提示工程技巧与测试时图像增强相结合，作者展示了即使不进行大量模型再训练，也能在视觉词义消歧上获得显著提升。对于构建多模态产品的开发者而言，这一方案提供了一种即时、低成本的方式，使模糊的语言更加具体且可操作。

作者

Shamik Bhattacharya
Daniel Perkins
Yaren Dogan
Vineeth Konjeti
Sudarshan Srinivasan
Edmon Begoli

论文信息

arXiv ID: 2602.06799v1
分类: cs.CL
发布日期: 2026年2月6日
PDF: 下载 PDF

[Paper] 使用 CLIP 通过双通道文本提示和图像增强进行视觉词义消歧

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] InftyThink+: 有效且高效的无限时域推理通过强化学习

[Paper] 大规模最佳土耳其子词策略：数据、词汇与形态学相互作用的系统评估

[Paper] 揭示多目标对齐中的跨目标干扰

【论文】SEMA：简单而有效的多轮越狱攻击学习