【论文】PANC：先验感知 Normalized Cut 用于目标分割

发布: 3天前 (2026年2月7日 GMT+8 02:07)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.06912v1

Overview

本文介绍了 PANC（Prior‑Aware Normalized Cut），一种弱监督分割框架，它在光谱聚类流程中注入少量用户提供的“视觉标记”。通过微妙地重塑相似度图，PANC 将归一化割的解引导至符合标注的掩码，实现可复现且可控的对象分割，且无需任何训练阶段。

关键贡献

Prior‑augmented affinity graph: 将 TokenCut 图扩展为包含锚点节点，这些锚点节点编码少量已标注的像素/补丁，使特征空间偏向用户期望的区域。
Training‑free spectral segmentation: 在保留密集自监督特征（全局分组）优势的同时，每个数据集仅需 5–30 个标注。
State‑of‑the‑art weakly‑supervised performance: 在 DUTS‑TE、ECSSD、MS COCO 上超越现有的无监督和弱监督方法，并在特定数据集上取得显著提升（例如在 CrackForest 上提升 +14.43 % mIoU）。
Deterministic and reproducible masks: 消除无监督流程中常见的随机性（种子顺序、阈值启发式）。
User‑controllable multi‑object segmentation: 通过放置标注标记，明确选择要分割的对象。

方法论

特征提取： 预训练的自监督视觉 Transformer（或 CNN）为整幅图像提供密集的 token 嵌入。
基线 TokenCut 图： token 作为节点；边权为余弦相似度，形成全连接的相似度矩阵。
注入先验：
- 选取一小部分已标注的像素/补丁（称为“视觉 token”）。
- 每个 token 与一个新的 锚点节点 相连，表示其所属类别（前景/背景）。
- token 到其锚点的边权设为高值，而到相反锚点的连接则被削弱。
图的操作： 修改后的邻接矩阵会微妙地重塑用于归一化割特征值问题的拉普拉斯矩阵。
谱解法： 计算拉普拉斯矩阵的第二小特征向量（经典的 N‑cut 方法）。
掩码提取： 对特征向量进行阈值化（或使用简单的 k‑means），得到与注入先验对齐的二值掩码。
无训练循环： 所有步骤都是确定性的，唯一的“学习”来自用户提供的 token。

结果与发现

数据集	指标 (mIoU)	相较于之前的 SOTA Δ
CrackForest (CFD)	96.8 %	+14.43 %
CUB‑200‑2011	78.0 %	+0.2 %
HAM10000	78.8 %	+0.37 %
DUTS‑TE / ECSSD / MS COCO (无监督基准)	最先进的弱监督分数（论文中给出具体数值）	—

关键观察

可复现性： 在相同图像上多次运行流水线会得到完全相同的掩码，不同于许多随机种子会导致结果波动的无监督方法。
标注效率： 每个数据集仅需 5 个标注 token 即可已接近全监督模型的性能；增加至 30 个时提升幅度虽小但仍保持一致。
对细粒度领域的鲁棒性： 该方法在类别差异细微的场景（如鸟类物种、医学皮肤病变）表现突出，因为全局自监督特征保留了纹理和形状信息，而先验帮助消除歧义。

实际意义

针对细分领域的快速原型开发： 在医学影像、缺陷检测或任何像素级标签成本高昂的领域，团队可以通过极少的人工操作获得高质量的掩码。
交互式分割工具： 通过公开 token 放置的 UI，开发者可以构建“点击即分割”应用，用户只需标记少量点，即可即时获得稳定的掩码。
即插即用组件： 由于 PANC 无需训练，可直接嵌入已使用自监督骨干网络（如 DINO、MAE）的现有流水线，无需耗费 GPU 的微调。
面向生产的确定性流水线： 可复现性消除了使用后处理启发式方法来稳定结果的需求，简化了在自动化工作流中的部署（例如卫星影像的批处理）。
多对象控制： 开发者可以通过分配不同的锚点节点，对同一场景中的多个对象进行分割，从而实现轻量级的实例级分割，而无需完整的实例掩码模型。

限制与未来工作

对特征质量的依赖： 该方法继承了底层自监督骨干网络的偏差；如果在某一特定模态（例如红外）上的表征质量较差，可能会限制性能。
图的可扩展性： 构建全连接亲和矩阵会在超高分辨率图像下消耗大量内存；使用近似最近邻图可以缓解此问题。
标注放置启发式： 论文假设使用一小组手动挑选的 token；如何自动化 token 选择（例如通过主动学习）仍是一个待探索的方向。
向视频的扩展： 未考虑时间一致性；将先验感知图适配到时空数据上可能会实现实时视频分割。

总体而言，PANC 在完全无监督聚类和高成本像素级监督之间提供了一个有吸引力的折中，使得高质量的目标分割对需要可控性、可复现性和最小标注工作量的开发者而言变得更加可及。

作者

Juan Gutiérrez
Victor Gutiérrez‑Garcia
José Luis Blanco‑Murillo

论文信息

arXiv ID: 2602.06912v1
分类: cs.CV, cs.AI
发布时间: 2026年2月6日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 可靠的误标检测用于视频胶囊内镜数据

深度神经网络的分类性能在很大程度上依赖于获取大规模、准确标注的数据集。然而，在医学影像领域，获取……

[Paper] Vision Transformer 微调受益于非平滑组件

Transformer 架构的平滑性已在泛化、训练稳定性和对抗鲁棒性方面得到广泛研究。Ho...

[Paper] NanoFLUX：蒸馏驱动的压缩大型文本到图像生成模型用于移动设备

虽然 large-scale text-to-image diffusion models 在 visual quality 上持续提升，但它们日益增长的规模扩大了 state-of-the-art 模式之间的差距。

[Paper] MedMO：用于医学影像的多模态大型语言模型的定位与理解

多模态大型语言模型（MLLMs）已经快速发展，但它们在医学中的应用仍受限于领域覆盖、模态对齐等方面的差距，...