[Paper] TopoLoRA-SAM:拓扑感知参数高效适配基础分割模型用于细结构和跨域二值语义分割

发布: (2026年1月6日 GMT+8 01:03)
6 min read
原文: arXiv

Source: arXiv - 2601.02273v1

概述

本文介绍了 TopoLoRA‑SAM,一种轻量级、拓扑感知的适配层,使得大规模的 Segment Anything Model(SAM)能够重新用于二元语义分割任务,如视网膜血管、息肉以及 SAR 海陆检测。通过冻结 SAM 的庞大 Vision Transformer(ViT)主干,仅训练其极少数参数,作者在细结构和噪声模态数据集上实现了最先进的准确率,同时保持了低计算和内存占用。

关键贡献

  • 参数高效适配: 将低秩适配 (LoRA) 模块注入冻结的 ViT 编码器,仅训练约 5.2 % 的 SAM 参数(约 4.9 M)。
  • 拓扑感知监督: 添加可选的可微分 clDice 损失,显式惩罚拓扑错误,对血管等细长结构至关重要。
  • 混合适配器设计: 将 LoRA 与轻量级空间卷积适配器相结合,以捕获全局上下文(通过 ViT)和局部细节(通过卷积)。
  • 全面基准测试: 在五个多样的二值分割数据集(视网膜血管、息肉、SAR 海/陆)上评估,并超越强基线(U‑Net、DeepLabV3+、SegFormer、Mask2Former)。
  • 开源实现: 提供可复现的代码和预训练适配器,便于快速实验。

方法论

  1. 冻结 SAM 主干: 预训练的 ViT 编码器和掩码解码器保持不变,保留 SAM 的零样本知识。
  2. 插入 LoRA 适配器: 对于 ViT 中的每个线性投影,添加一个低秩矩阵对 (ΔW = A Bᵀ)。训练时仅更新 A 和 B,显著减少可训练权重的数量。
  3. 添加空间卷积适配器: 在 ViT 输出后放置一个小的 3 × 3 卷积块,注入纯 Transformer 层可能缺失的局部信息。
  4. 拓扑感知损失(可选): 可微分的 clDice 指标衡量骨架化预测与真实标签的重叠,鼓励保留细长结构。总损失 = 标准二元交叉熵 + Dice + λ·clDice(使用时)。
  5. 训练流程: 仅在目标数据集上微调适配器,使用标准 SGD/Adam 优化器;其余 SAM 冻结,因此 GPU 内存占用与训练一个适度的 CNN 相当。

结果与发现

数据集指标(Dice)TopoLoRA‑SAM最佳基线
DRIVE (retina)0.820.840.81 (Mask2Former)
STARE (retina)0.800.830.78
CHASE_DB1 (retina)0.780.820.74
Kvasir‑SEG (polyp)0.910.920.90
SL‑SSDD (SAR)0.880.890.86
  • 参数效率: 仅更新了 SAM 参数的 5.2 %,但相较于基线的平均 Dice 提升了 +2.3 %。
  • 细结构提升: 在 CHASE_DB1 上,加入 clDice 的版本相比仅使用 LoRA 的普通变体将断裂血管错误降低约 30 %。
  • 跨域鲁棒性: 同一套适配器可在光学、内镜和雷达等不同模态间直接使用,无需任何架构修改。

实际意义

  • 快速领域适应: 开发者可以使用预训练的 SAM 模型,并在普通 GPU 上进行数小时的微调,从而获得用于医学影像、遥感或工业检测的专业二值分割器。
  • 降低计算成本: 由于主干网络保持冻结,训练所需的显存和时间与训练小型 CNN 相当,可在消费级硬件或 CI 流水线中实现。
  • 薄结构即插即用: 拓扑感知损失可随时开启或关闭,使团队能够在不重新设计网络的情况下优先保证结构完整性(例如血管追踪、道路网络提取)。
  • 统一代码库: 借助开源适配器,团队可以维护单一的基于 SAM 的推理服务,并在运行时动态切换任务特定的适配器,从而简化部署和版本管理。
  • 持续学习的潜力: 由于仅更新适配器,可增量添加新领域,而不会导致已学任务的灾难性遗忘。

限制与未来工作

  • Binary focus: 当前框架针对二进制掩码;扩展到多类分割需要重新设计适配器头和损失加权。
  • Dependency on SAM’s pretraining bias: 如果目标领域与 SAM 的训练分布相差甚远(例如高光谱影像),冻结的主干网络可能会限制性能,即使使用适配器也是如此。
  • Topology loss overhead: 计算 clDice 在训练期间会带来适度的运行时开销;为大规模数据集优化其实现仍是一个未解决的挑战。
  • Future directions: 作者建议探索适配器堆叠用于层次任务,结合提示工程(例如点或框提示)进一步降低标注工作量,并在 3‑D 体积数据(如 OCT 或 CT 扫描)上进行评估。

作者

  • Salim Khazem

Source:

论文信息

  • arXiv ID: 2601.02273v1
  • 分类: cs.CV, cs.AI, cs.LG
  • 发布日期: 2026年1月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »