[论文] LiteEmbed:适配 CLIP 到稀有类别

发布: (2026年1月15日 GMT+8 01:53)
6 min read
原文: arXiv

Source: arXiv - 2601.09661v1

概览

基于 CLIP 的视觉‑语言模型在零样本图像分类方面表现出色,但在需要识别在预训练期间几乎未见过的类别时会出现困难——比如小众产品系列、新兴的网络梗或具有特定文化背景的物体。LiteEmbed 提出了一种轻量级、即插即用的方式,能够在不修改庞大的图像或文本编码器的前提下,为这些“稀有”类别对 CLIP 进行个性化。

关键贡献

  • 子空间引导的嵌入优化: 使用 PCA 派生的 CLIP 文本空间分解,将粗粒度语义方向与细粒度变化分离。
  • 双目标训练:
    • 粗粒度对齐 使新嵌入保持在 CLIP 的全局语义结构中。
    • 细粒度分离 将稀有类别的嵌入与视觉上相似的邻居分开,提升可辨别性。
  • 零重新训练部署: 优化后的嵌入可直接替换 CLIP 原始文本向量,用于下游任务(分类、检索、分割、检测)。
  • 广泛的实证验证: 在多个基准和任务上表现出一致的提升,优于之前的少样本个性化方法。

方法论

  1. PCA of CLIP’s text space – 作者对预先计算好的 CLIP 文本嵌入(覆盖整个词表)进行主成分分析。最高的成分捕获宽泛的语义轴(例如 “animal vs. vehicle”),而残差子空间则编码更细微的差别。
  2. Embedding initialization – 对于每个新的稀有类别,生成一个种子嵌入(例如,通过使用类别名称提示 CLIP)。
  3. Optimization loop – 将种子投影到粗糙子空间和细粒子空间。应用两个损失项:
    • Coarse alignment loss 惩罚偏离原始粗糙方向的漂移,保持整体语义一致性。
    • Fine separation loss(对比损失)将细粒子空间的分量与视觉上相似的基础类别嵌入拉开距离,使用每个新类别的少量标注图像。
  4. Plug‑and‑play deployment – 生成的优化后文本向量替换下游流水线中的原始 CLIP 文本向量;不修改编码器权重,因此推理速度和内存保持不变。

结果与发现

任务基线(CLIP)先前少样本方法LiteEmbed相对提升
图像分类(稀有类别少样本)62.4 %66.1 %71.8 %+9.4 %
文本到图像检索(稀有查询)48.7 %52.3 %58.9 %+10.2 %
开放集分割(新对象类别)41.2 %44.5 %50.3 %+9.1 %
目标检测(新类别少样本)37.8 %40.2 %46.5 %+8.7 %
  • 当每个新类别仅有 1–5 张标记图像时,提升尤为显著。
  • 优化后的嵌入保持了 CLIP 在原始词汇表上的零样本性能,证明全局语义未受损。

实际影响

  • 快速的产品特定分类器: 公司只需为新 SKU 添加少量图像,即可立即获得可靠的分类器,而无需重新训练大型模型。
  • 具备文化感知的 AI: 需要识别地区特定物体(例如当地食品、传统服饰)的应用程序,可以在设备上以极少的计算资源对 CLIP 进行个性化。
  • 成本效益高的个性化: 由于仅调优文本嵌入,该方法可以直接嵌入现有的 CLIP 流程(例如 OpenAI 的 CLIP API、Hugging Face clip-vit-base-patch32),无需额外的 GPU 内存或延迟。
  • 跨任务复用: 同一套优化后的嵌入不仅提升分类,还能改进检索、分割和检测,降低对特定任务微调的需求。

限制与未来工作

  • 对 PCA 质量的依赖: 子空间分解假设线性结构;高度非线性的语义关系可能无法被捕获。
  • 少样本标签需求: 虽然只需要少量图像,但完全无标签的适配(纯零样本)仍超出范围。
  • 对成千上万新类别的可扩展性: 逐个优化嵌入可能成为瓶颈;作者建议探索批量或元学习策略。
  • 更广泛的模态测试: 未来工作可以将 LiteEmbed 扩展到视频‑语言模型或除 CLIP 之外的多模态 Transformer。

作者

  • Aishwarya Agarwal
  • Srikrishna Karanam
  • Vineet Gandhi

论文信息

  • arXiv ID: 2601.09661v1
  • 分类: cs.CV
  • 出版日期: 2026年1月14日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »