[Paper] 区域归一化 DPO 在噪声评审者下的医学图像分割

发布: 1周前 (2026年1月31日 GMT+8 01:45)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.23222v1

（请提供您希望翻译的具体文本内容，我将为您翻译成简体中文，并保持原有的格式、Markdown 语法以及技术术语不变。）

概述

本文提出了 Region‑Normalized Direct Preference Optimization (RN‑DPO)，这是一种利用廉价、噪声较大的“质量控制”信号而非昂贵的像素级标注来微调医学图像分割模型的新方法。通过重新构造偏好反馈的应用方式，RN‑DPO 能够在无需额外真实掩码的情况下提升分割性能，为可扩展的、持续学习的医学影像系统打开了大门。

关键贡献

基于偏好的细调用于分割： 将最初为语言模型设计的直接偏好优化（Direct Preference Optimization, DPO）适配到密集像素级任务。
区域归一化目标： 引入一种面向分割的损失函数，根据两个掩码之间不一致区域的大小对更新进行缩放，减弱噪声或误导性偏好的影响。
系统化的偏好挖掘分析： 表明从噪声评审者中盲目挑选排名最高的提案可能会降低性能，并提出更稳健的挖掘策略。
在两个医学数据集上的实证验证： 在多种噪声水平和标签预算情境下，展示相较于标准 DPO 和强基线的一致提升。
无需额外像素标注： 仅利用现有的质量控制信号（模型一致性、不确定性、学习的掩码质量分数），实现近乎零的标注成本提升。

方法论

基础分割器: 在小规模、完全标注的集合（即“种子”数据）上训练传统的监督分割网络。
生成提议: 在未标记的图像上运行基础模型，产生多个候选掩码（例如通过测试时增强、dropout 或不同模型检查点）。
收集噪声偏好: 使用自动质量控制评判器（不确定性估计器、协议分数或学习的质量预测器）对提议进行排序。评判器的输出是噪声的——有时会偏好较差的掩码。
偏好对挖掘: 形成对 ((m_i, m_j))，其中评判器认为 (m_i) 优于 (m_j)。论文实验了几种挖掘策略（仅最高排名、随机、混合）。
区域归一化 DPO 损失:

[ \mathcal{L}_{\text{RN‑DPO}} = -\log \sigma!\Big(\frac{S(m_i)-S(m_j)}{|m_i \ominus m_j|_1 + \epsilon}\Big) ]

其中 (S(\cdot)) 是模型对掩码的得分，(\ominus) 表示像素级异或（不一致区域），分母按其面积归一化。当不一致区域很小（通常是噪声比较）时，这会降低学习信号；当掩码差异显著时，则放大信号。
微调: 在未标记池上使用 RN‑DPO 损失优化分割器，同时在种子集合上保持原始监督损失，以保留核心知识。

结果与发现

数据集	种子标注	偏好噪声水平	指标（Dice）	标准 DPO	RN‑DPO（提出）
腹部 CT	5 %	低（高质量评审）	0.78 → 0.84	0.81	0.86
脑部 MRI	10 %	中（中等质量评审）	0.71 → 0.77	0.73	0.79
脑部 MRI	10 %	高（非常嘈杂的评审）	0.71 → 0.74	0.72	0.75

稳定性： RN‑DPO 在评审不可靠时表现出更平滑的训练曲线和更少的灾难性下降。
对采样策略的鲁棒性： 与普通 DPO 不同，RN‑DPO 对使用最高排名还是随机配对的敏感度更低。
无需额外像素标签： 所有提升均仅来自未标记池和廉价的质量控制信号。

实际影响

可扩展的模型更新: 医院可以在新扫描到达时持续改进分割模型，只使用其流水线已产生的现有 QC 指标。
降低标注瓶颈: 放射科团队可以将有限的标注预算分配给一个小的种子集，其余数据自动推动模型改进。
即插即用组件: RN‑DPO 是一种损失函数，可直接嵌入任何 PyTorch/TF 分割模型，无需更改架构。
噪声反馈的安全网: 区域归一化起到保护作用，防止单个错误的 QC 信号破坏模型——这对于受监管的医疗 AI 至关重要。
超越医学: 任何具有密集预测（如卫星影像、自动驾驶感知）且质量评分成本低的领域，都可以采用 RN‑DPO 实现大规模弱监督。

限制与未来工作

对基础分割器的依赖： 该方法假设已有一个相对良好的初始模型；极差的种子可能无法产生有用的提议多样性。
评判器质量仍然重要： 虽然 RN‑DPO 能减轻噪声，但极度偏见或对抗性的评判器仍可能削弱性能。
区域归一化超参数： 小常数 (\epsilon) 以及分母的具体形式是手动调节的；自动化适配可能提升鲁棒性。
向多类别/多器官分割的扩展： 实验主要聚焦于二值掩码；在复杂的多标签场景下的扩展仍是一个未解之题。
真实世界部署研究： 未来工作应在实际临床工作流中评估 RN‑DPO，不仅测量 Dice 系数，还要衡量对诊断或治疗计划的下游影响。

作者

Hamza Kalisch
Constantin Seibold
Jens Kleesiek
Ken Herrmann
Frederic Jonske

论文信息

arXiv ID: 2601.23222v1
分类: cs.CV
发表时间: 2026年1月30日
PDF: 下载 PDF

[Paper] 区域归一化 DPO 在噪声评审者下的医学图像分割

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[论文] XR 环境中 Open-Set Object Detection 的用户提示策略与提示增强方法

[Paper] 去噪深空：基于物理的 CCD 噪声形成用于天文成像

[Paper] PaperBanana：为 AI 科学家自动化学术插图