[论文] LiteEmbed:适配 CLIP 到稀有类别
发布: (2026年1月15日 GMT+8 01:53)
6 min read
原文: arXiv
Source: arXiv - 2601.09661v1
概览
基于 CLIP 的视觉‑语言模型在零样本图像分类方面表现出色,但在需要识别在预训练期间几乎未见过的类别时会出现困难——比如小众产品系列、新兴的网络梗或具有特定文化背景的物体。LiteEmbed 提出了一种轻量级、即插即用的方式,能够在不修改庞大的图像或文本编码器的前提下,为这些“稀有”类别对 CLIP 进行个性化。
关键贡献
- 子空间引导的嵌入优化: 使用 PCA 派生的 CLIP 文本空间分解,将粗粒度语义方向与细粒度变化分离。
- 双目标训练:
- 粗粒度对齐 使新嵌入保持在 CLIP 的全局语义结构中。
- 细粒度分离 将稀有类别的嵌入与视觉上相似的邻居分开,提升可辨别性。
- 零重新训练部署: 优化后的嵌入可直接替换 CLIP 原始文本向量,用于下游任务(分类、检索、分割、检测)。
- 广泛的实证验证: 在多个基准和任务上表现出一致的提升,优于之前的少样本个性化方法。
方法论
- PCA of CLIP’s text space – 作者对预先计算好的 CLIP 文本嵌入(覆盖整个词表)进行主成分分析。最高的成分捕获宽泛的语义轴(例如 “animal vs. vehicle”),而残差子空间则编码更细微的差别。
- Embedding initialization – 对于每个新的稀有类别,生成一个种子嵌入(例如,通过使用类别名称提示 CLIP)。
- Optimization loop – 将种子投影到粗糙子空间和细粒子空间。应用两个损失项:
- Coarse alignment loss 惩罚偏离原始粗糙方向的漂移,保持整体语义一致性。
- Fine separation loss(对比损失)将细粒子空间的分量与视觉上相似的基础类别嵌入拉开距离,使用每个新类别的少量标注图像。
- Plug‑and‑play deployment – 生成的优化后文本向量替换下游流水线中的原始 CLIP 文本向量;不修改编码器权重,因此推理速度和内存保持不变。
结果与发现
| 任务 | 基线(CLIP) | 先前少样本方法 | LiteEmbed | 相对提升 |
|---|---|---|---|---|
| 图像分类(稀有类别少样本) | 62.4 % | 66.1 % | 71.8 % | +9.4 % |
| 文本到图像检索(稀有查询) | 48.7 % | 52.3 % | 58.9 % | +10.2 % |
| 开放集分割(新对象类别) | 41.2 % | 44.5 % | 50.3 % | +9.1 % |
| 目标检测(新类别少样本) | 37.8 % | 40.2 % | 46.5 % | +8.7 % |
- 当每个新类别仅有 1–5 张标记图像时,提升尤为显著。
- 优化后的嵌入保持了 CLIP 在原始词汇表上的零样本性能,证明全局语义未受损。
实际影响
- 快速的产品特定分类器: 公司只需为新 SKU 添加少量图像,即可立即获得可靠的分类器,而无需重新训练大型模型。
- 具备文化感知的 AI: 需要识别地区特定物体(例如当地食品、传统服饰)的应用程序,可以在设备上以极少的计算资源对 CLIP 进行个性化。
- 成本效益高的个性化: 由于仅调优文本嵌入,该方法可以直接嵌入现有的 CLIP 流程(例如 OpenAI 的 CLIP API、Hugging Face
clip-vit-base-patch32),无需额外的 GPU 内存或延迟。 - 跨任务复用: 同一套优化后的嵌入不仅提升分类,还能改进检索、分割和检测,降低对特定任务微调的需求。
限制与未来工作
- 对 PCA 质量的依赖: 子空间分解假设线性结构;高度非线性的语义关系可能无法被捕获。
- 少样本标签需求: 虽然只需要少量图像,但完全无标签的适配(纯零样本)仍超出范围。
- 对成千上万新类别的可扩展性: 逐个优化嵌入可能成为瓶颈;作者建议探索批量或元学习策略。
- 更广泛的模态测试: 未来工作可以将 LiteEmbed 扩展到视频‑语言模型或除 CLIP 之外的多模态 Transformer。
作者
- Aishwarya Agarwal
- Srikrishna Karanam
- Vineet Gandhi
论文信息
- arXiv ID: 2601.09661v1
- 分类: cs.CV
- 出版日期: 2026年1月14日
- PDF: 下载 PDF