[论文] LiteEmbed：适配 CLIP 到稀有类别

发布: 3周前 (2026年1月15日 GMT+8 01:53)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.09661v1

概览

基于 CLIP 的视觉‑语言模型在零样本图像分类方面表现出色，但在需要识别在预训练期间几乎未见过的类别时会出现困难——比如小众产品系列、新兴的网络梗或具有特定文化背景的物体。LiteEmbed 提出了一种轻量级、即插即用的方式，能够在不修改庞大的图像或文本编码器的前提下，为这些“稀有”类别对 CLIP 进行个性化。

关键贡献

子空间引导的嵌入优化： 使用 PCA 派生的 CLIP 文本空间分解，将粗粒度语义方向与细粒度变化分离。
双目标训练：
- 粗粒度对齐 使新嵌入保持在 CLIP 的全局语义结构中。
- 细粒度分离 将稀有类别的嵌入与视觉上相似的邻居分开，提升可辨别性。
零重新训练部署： 优化后的嵌入可直接替换 CLIP 原始文本向量，用于下游任务（分类、检索、分割、检测）。
广泛的实证验证： 在多个基准和任务上表现出一致的提升，优于之前的少样本个性化方法。

方法论

PCA of CLIP’s text space – 作者对预先计算好的 CLIP 文本嵌入（覆盖整个词表）进行主成分分析。最高的成分捕获宽泛的语义轴（例如 “animal vs. vehicle”），而残差子空间则编码更细微的差别。
Embedding initialization – 对于每个新的稀有类别，生成一个种子嵌入（例如，通过使用类别名称提示 CLIP）。
Optimization loop – 将种子投影到粗糙子空间和细粒子空间。应用两个损失项：
- Coarse alignment loss 惩罚偏离原始粗糙方向的漂移，保持整体语义一致性。
- Fine separation loss（对比损失）将细粒子空间的分量与视觉上相似的基础类别嵌入拉开距离，使用每个新类别的少量标注图像。
Plug‑and‑play deployment – 生成的优化后文本向量替换下游流水线中的原始 CLIP 文本向量；不修改编码器权重，因此推理速度和内存保持不变。

结果与发现

任务	基线（CLIP）	先前少样本方法	LiteEmbed	相对提升
图像分类（稀有类别少样本）	62.4 %	66.1 %	71.8 %	+9.4 %
文本到图像检索（稀有查询）	48.7 %	52.3 %	58.9 %	+10.2 %
开放集分割（新对象类别）	41.2 %	44.5 %	50.3 %	+9.1 %
目标检测（新类别少样本）	37.8 %	40.2 %	46.5 %	+8.7 %

当每个新类别仅有 1–5 张标记图像时，提升尤为显著。
优化后的嵌入保持了 CLIP 在原始词汇表上的零样本性能，证明全局语义未受损。

实际影响

快速的产品特定分类器： 公司只需为新 SKU 添加少量图像，即可立即获得可靠的分类器，而无需重新训练大型模型。
具备文化感知的 AI： 需要识别地区特定物体（例如当地食品、传统服饰）的应用程序，可以在设备上以极少的计算资源对 CLIP 进行个性化。
成本效益高的个性化： 由于仅调优文本嵌入，该方法可以直接嵌入现有的 CLIP 流程（例如 OpenAI 的 CLIP API、Hugging Face clip-vit-base-patch32），无需额外的 GPU 内存或延迟。
跨任务复用： 同一套优化后的嵌入不仅提升分类，还能改进检索、分割和检测，降低对特定任务微调的需求。

限制与未来工作

对 PCA 质量的依赖： 子空间分解假设线性结构；高度非线性的语义关系可能无法被捕获。
少样本标签需求： 虽然只需要少量图像，但完全无标签的适配（纯零样本）仍超出范围。
对成千上万新类别的可扩展性： 逐个优化嵌入可能成为瓶颈；作者建议探索批量或元学习策略。
更广泛的模态测试： 未来工作可以将 LiteEmbed 扩展到视频‑语言模型或除 CLIP 之外的多模态 Transformer。

作者

Aishwarya Agarwal
Srikrishna Karanam
Vineet Gandhi

论文信息

arXiv ID: 2601.09661v1
分类: cs.CV
出版日期: 2026年1月14日
PDF: 下载 PDF

[论文] LiteEmbed：适配 CLIP 到稀有类别

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

【论文】UniX：统一自回归与扩散用于胸部X光的理解与生成

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

[Paper] ReScene4D：针对演化的室内3D场景的时间一致语义实例分割

[Paper] CTest-Metric：统一框架评估用于CT报告生成的指标的临床有效性