[Paper] 检索与分割:少量示例足以弥合 Open-Vocabulary Segmentation 中的监督差距吗?

发布: (2026年2月27日 GMT+8 02:45)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.23339v1

请提供您希望翻译的具体文本(例如摘要、引言或全文),我将为您翻译成简体中文并保留原有的格式、Markdown 语法以及技术术语。谢谢!

概述

Open‑vocabulary segmentation (OVS) 让你可以让视觉‑语言模型对你能够用文字描述的 任何 对象进行分割,但它仍然不及在像素级标签上进行训练的全监督模型。本文展示,仅添加少量标注示例——少样本支持集——即可显著缩小该性能差距,同时保持开放词汇查询的灵活性。

关键贡献

  • Few‑shot OVS formulation: 引入了一种测试时设置,在该设置中,用户提供的少量像素标注图像的支持集用于增强文本提示。
  • Retrieval‑augmented adapter: 提出一种轻量级的每图像分类器,将支持集的视觉特征与查询的文本嵌入融合,针对每个查询学习融合,而不是使用固定的手工规则。
  • Continual support expansion: 该适配器能够即时加入新的支持示例,实现个性化或细粒度分割,而无需重新训练整个模型。
  • Strong empirical gains: 实验证明,仅使用 1–5 张支持图像,该方法即可将零样本 OVS 与全监督分割之间的性能差距在标准基准上缩小至最高 30%。
  • Open‑vocabulary preservation: 即使在少样本提升下,系统仍然接受任意文本提示,保持了 VLM 的原始开放词汇灵活性。

方法论

  1. Base model: 从预训练的视觉‑语言模型(例如 CLIP)开始,该模型为目标类别提供文本嵌入,并为输入图像提供密集的视觉特征图。
  2. Support set retrieval: 对于给定的查询,系统检索一小批具有相同类别(或相关类别)像素级掩码的图像。这些图像假设在测试时可用(例如,用户上传少量已标注的示例)。
  3. Feature extraction: 使用提供的掩码从支持图像中汇聚视觉特征,生成该类别的 support visual prototype(支持视觉原型)。
  4. Learned fusion adapter: 一个小型神经模块(几层线性层加上 softmax)接受三个输入:查询的视觉特征、文本嵌入以及支持视觉原型。它学习针对每个查询的加权,将仅文本和仅视觉的线索融合为 per‑image classifier(每图像分类器)。
  5. Segmentation head: 将融合后的分类器应用于密集的查询特征图,生成目标类别的像素级概率图。
  6. Continual update: 添加更多支持图像只需更新原型(例如通过平均),并用少量梯度步骤微调适配器——无需完整模型重新训练。

Results & Findings

设置mIoU(平均交并比)与全监督的差距
零样本 OVS(基线)38.2 %30 %
少样本(1 个支持)44.9 %23 %
少样本(5 个支持)51.3 %16 %
完全监督(相同骨干网络)68.2 %
  • 快速提升: 即使只有一个标注示例,也能带来约 7 % 的绝对 mIoU 提升。
  • 收敛递减: 在约 5–10 个示例后收益趋于平稳,表明适配器能够在早期高效提取最有用的信号。
  • 细粒度任务: 在个性化分割(例如“我的狗的红领带”)上,该方法比之前的零样本 OVS 基线提升超过 15 % mIoU,显示其能够捕捉细微的视觉差异。
  • 速度: 该适配器在现代 GPU 上仅增加 < 5 ms 的推理开销,适用于实时应用。

实际影响

  • 快速原型制作: 开发者只需上传少量标注图像,而无需构建庞大数据集,即可构建自定义分割工具。
  • 个性化 AI 服务: SaaS 平台(例如照片编辑器、AR 滤镜)可以让用户即时定义自己的分割类别——比如仅凭用户提供的几张掩码,就能实现“分割我最喜欢的咖啡杯”。
  • 边缘部署: 由于适配器体积小且仅在测试时运行,它可以在设备端(移动端、嵌入式)与冻结的 CLIP 主干一起运行,保护隐私并降低服务器负载。
  • 持续学习流水线: 企业可以不断通过用户收集的新示例来丰富支持库,从而提升分割质量,而无需昂贵的重新训练周期。
  • 跨模态研究: 学到的融合策略可以为其他任务(如开放词汇检测、深度估计或视频分割)提供类似的少样本适配器灵感。

限制与未来工作

  • 支持集质量: 该方法假设少量标注的掩码相对干净;噪声或高度不一致的标注会降低性能。
  • 检索的可扩展性: 虽然论文使用了简单的最近邻查找,但若要扩展到数百万潜在支持图像,可能需要更复杂的索引机制。
  • 领域迁移: 该方法在标准基准上进行评估;在截然不同的领域(例如医学影像)上的表现仍是未知问题。
  • 多类查询的扩展: 当前实验聚焦于每次推理的单一目标类别;如何高效处理多个同时出现的类别仍是未来研究的方向。

底线: 通过将一个小型的学习融合模块与少量用户提供的掩码相结合,本文展示了开放词汇分割可以显著接近全监督性能——且不牺牲使 VLM(视觉语言模型)如此强大的灵活性。对于开发者而言,这为按需、个性化的分割服务打开了大门,能够快速构建和迭代。

作者

  • Tilemachos Aravanis
  • Vladan Stojnić
  • Bill Psomas
  • Nikos Komodakis
  • Giorgos Tolias

论文信息

  • arXiv ID: 2602.23339v1
  • 类别: cs.CV
  • 出版日期: 2026年2月26日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »