[Paper] 区域归一化 DPO 在噪声评审者下的医学图像分割

发布: (2026年1月31日 GMT+8 01:45)
7 分钟阅读
原文: arXiv

Source: arXiv - 2601.23222v1

(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文,并保持原有的格式、Markdown 语法以及技术术语不变。)

概述

本文提出了 Region‑Normalized Direct Preference Optimization (RN‑DPO),这是一种利用廉价、噪声较大的“质量控制”信号而非昂贵的像素级标注来微调医学图像分割模型的新方法。通过重新构造偏好反馈的应用方式,RN‑DPO 能够在无需额外真实掩码的情况下提升分割性能,为可扩展的、持续学习的医学影像系统打开了大门。

关键贡献

  • 基于偏好的细调用于分割: 将最初为语言模型设计的直接偏好优化(Direct Preference Optimization, DPO)适配到密集像素级任务。
  • 区域归一化目标: 引入一种面向分割的损失函数,根据两个掩码之间不一致区域的大小对更新进行缩放,减弱噪声或误导性偏好的影响。
  • 系统化的偏好挖掘分析: 表明从噪声评审者中盲目挑选排名最高的提案可能会降低性能,并提出更稳健的挖掘策略。
  • 在两个医学数据集上的实证验证: 在多种噪声水平和标签预算情境下,展示相较于标准 DPO 和强基线的一致提升。
  • 无需额外像素标注: 仅利用现有的质量控制信号(模型一致性、不确定性、学习的掩码质量分数),实现近乎零的标注成本提升。

方法论

  1. 基础分割器: 在小规模、完全标注的集合(即“种子”数据)上训练传统的监督分割网络。

  2. 生成提议: 在未标记的图像上运行基础模型,产生多个候选掩码(例如通过测试时增强、dropout 或不同模型检查点)。

  3. 收集噪声偏好: 使用自动质量控制评判器(不确定性估计器、协议分数或学习的质量预测器)对提议进行排序。评判器的输出是噪声的——有时会偏好较差的掩码。

  4. 偏好对挖掘: 形成对 ((m_i, m_j)),其中评判器认为 (m_i) 优于 (m_j)。论文实验了几种挖掘策略(仅最高排名、随机、混合)。

  5. 区域归一化 DPO 损失:

    [ \mathcal{L}_{\text{RN‑DPO}} = -\log \sigma!\Big(\frac{S(m_i)-S(m_j)}{|m_i \ominus m_j|_1 + \epsilon}\Big) ]

    其中 (S(\cdot)) 是模型对掩码的得分,(\ominus) 表示像素级异或(不一致区域),分母按其面积归一化。当不一致区域很小(通常是噪声比较)时,这会降低学习信号;当掩码差异显著时,则放大信号。

  6. 微调: 在未标记池上使用 RN‑DPO 损失优化分割器,同时在种子集合上保持原始监督损失,以保留核心知识。

结果与发现

数据集种子标注偏好噪声水平指标(Dice)标准 DPORN‑DPO(提出)
腹部 CT5 %低(高质量评审)0.78 → 0.840.810.86
脑部 MRI10 %中(中等质量评审)0.71 → 0.770.730.79
脑部 MRI10 %高(非常嘈杂的评审)0.71 → 0.740.720.75
  • 稳定性: RN‑DPO 在评审不可靠时表现出更平滑的训练曲线和更少的灾难性下降。
  • 对采样策略的鲁棒性: 与普通 DPO 不同,RN‑DPO 对使用最高排名还是随机配对的敏感度更低。
  • 无需额外像素标签: 所有提升均仅来自未标记池和廉价的质量控制信号。

实际影响

  • 可扩展的模型更新: 医院可以在新扫描到达时持续改进分割模型,只使用其流水线已产生的现有 QC 指标。
  • 降低标注瓶颈: 放射科团队可以将有限的标注预算分配给一个小的种子集,其余数据自动推动模型改进。
  • 即插即用组件: RN‑DPO 是一种损失函数,可直接嵌入任何 PyTorch/TF 分割模型,无需更改架构。
  • 噪声反馈的安全网: 区域归一化起到保护作用,防止单个错误的 QC 信号破坏模型——这对于受监管的医疗 AI 至关重要。
  • 超越医学: 任何具有密集预测(如卫星影像、自动驾驶感知)且质量评分成本低的领域,都可以采用 RN‑DPO 实现大规模弱监督。

限制与未来工作

  • 对基础分割器的依赖: 该方法假设已有一个相对良好的初始模型;极差的种子可能无法产生有用的提议多样性。
  • 评判器质量仍然重要: 虽然 RN‑DPO 能减轻噪声,但极度偏见或对抗性的评判器仍可能削弱性能。
  • 区域归一化超参数: 小常数 (\epsilon) 以及分母的具体形式是手动调节的;自动化适配可能提升鲁棒性。
  • 向多类别/多器官分割的扩展: 实验主要聚焦于二值掩码;在复杂的多标签场景下的扩展仍是一个未解之题。
  • 真实世界部署研究: 未来工作应在实际临床工作流中评估 RN‑DPO,不仅测量 Dice 系数,还要衡量对诊断或治疗计划的下游影响。

作者

  • Hamza Kalisch
  • Constantin Seibold
  • Jens Kleesiek
  • Ken Herrmann
  • Frederic Jonske

论文信息

  • arXiv ID: 2601.23222v1
  • 分类: cs.CV
  • 发表时间: 2026年1月30日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »