[Paper] 检索与分割：少量示例足以弥合 Open-Vocabulary Segmentation 中的监督差距吗？

发布: 3天前 (2026年2月27日 GMT+8 02:45)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.23339v1

请提供您希望翻译的具体文本（例如摘要、引言或全文），我将为您翻译成简体中文并保留原有的格式、Markdown 语法以及技术术语。谢谢！

概述

Open‑vocabulary segmentation (OVS) 让你可以让视觉‑语言模型对你能够用文字描述的任何对象进行分割，但它仍然不及在像素级标签上进行训练的全监督模型。本文展示，仅添加少量标注示例——少样本支持集——即可显著缩小该性能差距，同时保持开放词汇查询的灵活性。

Few‑shot OVS formulation: 引入了一种测试时设置，在该设置中，用户提供的少量像素标注图像的支持集用于增强文本提示。
Retrieval‑augmented adapter: 提出一种轻量级的每图像分类器，将支持集的视觉特征与查询的文本嵌入融合，针对每个查询学习融合，而不是使用固定的手工规则。
Continual support expansion: 该适配器能够即时加入新的支持示例，实现个性化或细粒度分割，而无需重新训练整个模型。
Strong empirical gains: 实验证明，仅使用 1–5 张支持图像，该方法即可将零样本 OVS 与全监督分割之间的性能差距在标准基准上缩小至最高 30%。
Open‑vocabulary preservation: 即使在少样本提升下，系统仍然接受任意文本提示，保持了 VLM 的原始开放词汇灵活性。

Base model: 从预训练的视觉‑语言模型（例如 CLIP）开始，该模型为目标类别提供文本嵌入，并为输入图像提供密集的视觉特征图。
Support set retrieval: 对于给定的查询，系统检索一小批具有相同类别（或相关类别）像素级掩码的图像。这些图像假设在测试时可用（例如，用户上传少量已标注的示例）。
Feature extraction: 使用提供的掩码从支持图像中汇聚视觉特征，生成该类别的 support visual prototype（支持视觉原型）。
Learned fusion adapter: 一个小型神经模块（几层线性层加上 softmax）接受三个输入：查询的视觉特征、文本嵌入以及支持视觉原型。它学习针对每个查询的加权，将仅文本和仅视觉的线索融合为 per‑image classifier（每图像分类器）。
Segmentation head: 将融合后的分类器应用于密集的查询特征图，生成目标类别的像素级概率图。
Continual update: 添加更多支持图像只需更新原型（例如通过平均），并用少量梯度步骤微调适配器——无需完整模型重新训练。

快速原型制作: 开发者只需上传少量标注图像，而无需构建庞大数据集，即可构建自定义分割工具。
个性化 AI 服务: SaaS 平台（例如照片编辑器、AR 滤镜）可以让用户即时定义自己的分割类别——比如仅凭用户提供的几张掩码，就能实现“分割我最喜欢的咖啡杯”。
边缘部署: 由于适配器体积小且仅在测试时运行，它可以在设备端（移动端、嵌入式）与冻结的 CLIP 主干一起运行，保护隐私并降低服务器负载。
持续学习流水线: 企业可以不断通过用户收集的新示例来丰富支持库，从而提升分割质量，而无需昂贵的重新训练周期。
跨模态研究: 学到的融合策略可以为其他任务（如开放词汇检测、深度估计或视频分割）提供类似的少样本适配器灵感。

底线： 通过将一个小型的学习融合模块与少量用户提供的掩码相结合，本文展示了开放词汇分割可以显著接近全监督性能——且不牺牲使 VLM（视觉语言模型）如此强大的灵活性。对于开发者而言，这为按需、个性化的分割服务打开了大门，能够快速构建和迭代。