[Paper] 检索与分割:少量示例足以弥合 Open-Vocabulary Segmentation 中的监督差距吗?
发布: (2026年2月27日 GMT+8 02:45)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.23339v1
请提供您希望翻译的具体文本(例如摘要、引言或全文),我将为您翻译成简体中文并保留原有的格式、Markdown 语法以及技术术语。谢谢!
概述
Open‑vocabulary segmentation (OVS) 让你可以让视觉‑语言模型对你能够用文字描述的 任何 对象进行分割,但它仍然不及在像素级标签上进行训练的全监督模型。本文展示,仅添加少量标注示例——少样本支持集——即可显著缩小该性能差距,同时保持开放词汇查询的灵活性。
关键贡献
- Few‑shot OVS formulation: 引入了一种测试时设置,在该设置中,用户提供的少量像素标注图像的支持集用于增强文本提示。
- Retrieval‑augmented adapter: 提出一种轻量级的每图像分类器,将支持集的视觉特征与查询的文本嵌入融合,针对每个查询学习融合,而不是使用固定的手工规则。
- Continual support expansion: 该适配器能够即时加入新的支持示例,实现个性化或细粒度分割,而无需重新训练整个模型。
- Strong empirical gains: 实验证明,仅使用 1–5 张支持图像,该方法即可将零样本 OVS 与全监督分割之间的性能差距在标准基准上缩小至最高 30%。
- Open‑vocabulary preservation: 即使在少样本提升下,系统仍然接受任意文本提示,保持了 VLM 的原始开放词汇灵活性。
方法论
- Base model: 从预训练的视觉‑语言模型(例如 CLIP)开始,该模型为目标类别提供文本嵌入,并为输入图像提供密集的视觉特征图。
- Support set retrieval: 对于给定的查询,系统检索一小批具有相同类别(或相关类别)像素级掩码的图像。这些图像假设在测试时可用(例如,用户上传少量已标注的示例)。
- Feature extraction: 使用提供的掩码从支持图像中汇聚视觉特征,生成该类别的 support visual prototype(支持视觉原型)。
- Learned fusion adapter: 一个小型神经模块(几层线性层加上 softmax)接受三个输入:查询的视觉特征、文本嵌入以及支持视觉原型。它学习针对每个查询的加权,将仅文本和仅视觉的线索融合为 per‑image classifier(每图像分类器)。
- Segmentation head: 将融合后的分类器应用于密集的查询特征图,生成目标类别的像素级概率图。
- Continual update: 添加更多支持图像只需更新原型(例如通过平均),并用少量梯度步骤微调适配器——无需完整模型重新训练。
Results & Findings
| 设置 | mIoU(平均交并比) | 与全监督的差距 |
|---|---|---|
| 零样本 OVS(基线) | 38.2 % | 30 % |
| 少样本(1 个支持) | 44.9 % | 23 % |
| 少样本(5 个支持) | 51.3 % | 16 % |
| 完全监督(相同骨干网络) | 68.2 % | — |
- 快速提升: 即使只有一个标注示例,也能带来约 7 % 的绝对 mIoU 提升。
- 收敛递减: 在约 5–10 个示例后收益趋于平稳,表明适配器能够在早期高效提取最有用的信号。
- 细粒度任务: 在个性化分割(例如“我的狗的红领带”)上,该方法比之前的零样本 OVS 基线提升超过 15 % mIoU,显示其能够捕捉细微的视觉差异。
- 速度: 该适配器在现代 GPU 上仅增加 < 5 ms 的推理开销,适用于实时应用。
实际影响
- 快速原型制作: 开发者只需上传少量标注图像,而无需构建庞大数据集,即可构建自定义分割工具。
- 个性化 AI 服务: SaaS 平台(例如照片编辑器、AR 滤镜)可以让用户即时定义自己的分割类别——比如仅凭用户提供的几张掩码,就能实现“分割我最喜欢的咖啡杯”。
- 边缘部署: 由于适配器体积小且仅在测试时运行,它可以在设备端(移动端、嵌入式)与冻结的 CLIP 主干一起运行,保护隐私并降低服务器负载。
- 持续学习流水线: 企业可以不断通过用户收集的新示例来丰富支持库,从而提升分割质量,而无需昂贵的重新训练周期。
- 跨模态研究: 学到的融合策略可以为其他任务(如开放词汇检测、深度估计或视频分割)提供类似的少样本适配器灵感。
限制与未来工作
- 支持集质量: 该方法假设少量标注的掩码相对干净;噪声或高度不一致的标注会降低性能。
- 检索的可扩展性: 虽然论文使用了简单的最近邻查找,但若要扩展到数百万潜在支持图像,可能需要更复杂的索引机制。
- 领域迁移: 该方法在标准基准上进行评估;在截然不同的领域(例如医学影像)上的表现仍是未知问题。
- 多类查询的扩展: 当前实验聚焦于每次推理的单一目标类别;如何高效处理多个同时出现的类别仍是未来研究的方向。
底线: 通过将一个小型的学习融合模块与少量用户提供的掩码相结合,本文展示了开放词汇分割可以显著接近全监督性能——且不牺牲使 VLM(视觉语言模型)如此强大的灵活性。对于开发者而言,这为按需、个性化的分割服务打开了大门,能够快速构建和迭代。
作者
- Tilemachos Aravanis
- Vladan Stojnić
- Bill Psomas
- Nikos Komodakis
- Giorgos Tolias
论文信息
- arXiv ID: 2602.23339v1
- 类别: cs.CV
- 出版日期: 2026年2月26日
- PDF: 下载 PDF