[Paper] SCOPE：场景上下文化增量少样本3D分割

发布: 3天前 (2026年3月7日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.06572v1

概述

本文提出了 SCOPE，一个即插即用的框架，显著提升了 3‑D 点云的增量少样本（IFS）分割。通过巧妙地复用基准训练场景中已经存在的“背景”点，SCOPE 在不重新训练主干网络的情况下丰富了类别原型，实现了最先进的准确率，同时将灾难性遗忘控制在合理范围内。

关键贡献

背景引导的原型丰富：从未标记的背景区域提取高置信度伪实例，以构建可重用的原型池。
即插即用设计：可与任何基于原型的 3‑D 分割模型配合使用；无需额外参数或主干网络微调。
增量少样本学习：当出现仅有少量标注点的新类别时，SCOPE 将其少样本原型与相关背景原型融合，产生更丰富的类别表示。
显著的实验提升：在 ScanNet 和 S3DIS 数据集上，新增类别 IoU 提升最高 +6.98%，平均 IoU 提升 +2.25%，且对基类的遗忘极小。
开源实现：代码已在 https://github.com/Surrey-UP-Lab/SCOPE 发布，便于复现和采用。

方法论

基础训练 – 使用完整监督在一组基础类别上训练标准的原型‑基 3‑D 分割网络（例如 PointNet++、KPConv）。
背景挖掘 – 基础训练完成后，使用一个类别无关的分割头对相同场景进行推理，标记原本标记为 “背景” 的高置信度区域。这些区域被聚类为 伪实例，每个实例被转化为 背景原型。所有原型存入轻量级原型池。
少样本适配 – 当出现新颖类别时，开发者仅提供少量标注的点云。模型从这些样本中提取 少样本原型。
原型丰富 – 对于每个新颖类别，SCOPE 会在背景池中查询几何或语义相似的原型（例如使用余弦相似度）。检索到的背景原型与少样本原型进行合并（如加权平均），生成 丰富原型，既包含稀缺的标注数据，又融合了场景中已观察到的更丰富上下文。
推理 – 在分类头中用丰富原型替代原始的少样本原型；主干网络保持冻结，因此推理速度和内存占用保持不变。

结果与发现

数据集	指标	基线（无 SCOPE）	SCOPE (+)
ScanNet	新类 IoU	48.3%	55.3% (+6.98)
ScanNet	所有类平均 IoU	61.2%	63.5% (+2.25)
S3DIS	新类 IoU	42.1%	45.7% (+3.61)
S3DIS	平均 IoU	58.4%	60.1% (+1.70)

低遗忘：基类 IoU 相比完整训练的基线下降不足 1 %，验证了冻结主干网络并丰富原型不会削弱已学知识。
可扩展性：向原型池中添加新类仅需一次小的常数时间查找；该方法随新类别数量线性扩展。
鲁棒性：在不同数量的少样本（1‑5）实验中均表现出一致的提升，表明背景原型池能够补偿极端标签稀缺的情况。

实际意义

快速产品更新：机器人或 AR/VR 平台只需少量标注的扫描，即可在设备端加入新的物体类别，避免了昂贵的全模型重新训练流程。
边缘部署：由于 SCOPE 不会修改主干网络或增加模型体积，它能够在内存受限的 GPU/NPU 上顺畅运行，适用于自主无人机、手持 LiDAR 扫描仪或智能眼镜等设备。
数据高效流水线：开发者可以利用已有的场景数据集（例如室内扫描）作为“免费”的背景原型来源，减少对每一种可能物体进行全面标注的需求。
模块化集成：任何现有的基于原型的 3‑D 分割代码库，只需加入 SCOPE 模块即可升级，加速了在开源项目和商业 SDK 中的采纳。

限制与未来工作

依赖背景质量：该增强依赖于类无关模型生成可靠伪实例的能力；噪声背景原型可能在高度混乱的场景中降低性能。
原型相似度度量：当前的余弦相似度检索可能遗漏细微的语义线索；学习更具表达性的相似度函数可能进一步提升增强效果。
超出室内扫描的扩展：本文聚焦于室内数据集（ScanNet、S3DIS）。将 SCOPE 应用于户外 LiDAR（例如自动驾驶）可能需要处理更大尺度的变化和动态物体。
超越少样本的持续学习：未来工作可以探索如何在收集新场景时增量更新背景原型池，实现真正的终身学习，而无需人工重新挖掘。

作者

Vishal Thengane
Zhaochong An
Tianjin Huang
Son Lam Phung
Abdesselam Bouzerdoum
Lu Yin
Na Zhao
Xiatian Zhu

论文信息

arXiv ID: 2603.06572v1
分类: cs.CV, cs.LG
出版日期: 2026年3月6日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] SUREON：用于外科推理的基准与视觉语言模型

外科医生不仅仅是看——他们在解读。当专家观察手术现场时，他们不仅了解正在使用的器械是什么，还明白为什么选择它……

[Paper] 多模态大语言模型作为图像分类器

多模态大型语言模型（MLLM）的分类性能在很大程度上取决于评估协议和真实标签的质量。比较MLLM的研究……

[Paper] Omni-Diffusion：统一的多模态理解与生成，采用 Masked Discrete Diffusion

虽然近期的多模态大语言模型（MLLMs）取得了令人印象深刻的进展，但它们主要采用传统的自回归架构作为其……

[Paper] Fly360：全向障碍规避在无人机视角下

障碍规避作为无人机（UAV）的一项基础能力，随着对空间智能的日益关注，已受到越来越多的关注。