[Paper] WaveRNet: 小波引导的频率学习用于多源域通用视网膜血管分割
发布: (2026年1月10日 GMT+8 00:58)
7 min read
原文: arXiv
Source: arXiv - 2601.05942v1
概述
视网膜血管分割是自动眼病筛查的基石,但模型在面对不同光照、对比度或相机设置下拍摄的图像时常常会出现问题。新的 WaveRNet 论文通过将小波频率分析与强大的 Segment‑Anything Model (SAM) 相结合,解决了这种“域迁移”问题。其结果是一个系统,能够在多个此前未见过的数据集上可靠地提取细粒度的血管结构,而无需额外的训练。
关键贡献
- Spectral‑guided Domain Modulator (SDM): 将离散小波分解与可学习的“域标记”相结合,以分离光照稳健的低频结构和高频血管边缘,同时仍然允许域特定的特征适配。
- Frequency‑Adaptive Domain Fusion (FADF): 在推理时,根据小波衍生的频率相似性选择并软融合最相关的源域表征,实现无需重新训练的测试时适配。
- Hierarchical Mask‑Prompt Refiner (HMPR): 一个粗到细的精炼流水线,克服 SAM 朴素的上采样,通过多尺度长程依赖建模保留细小毛细血管。
- Leave‑One‑Domain‑Out (LODO) 基准: 在四个公开视网膜数据集上的广泛评估显示出最先进的泛化能力,显著超越先前基于 SAM 的适配器。
- 开源发布: 在 GitHub 上提供完整代码、预训练权重和即用演示,降低了采用门槛。
方法论
- 小波分解: 输入的视网膜图像首先通过离散小波变换(DWT)被分割为低频(近似)和高频(细节)子带。这样可以将与光照相关的变化(低频)与血管边缘信息(高频)分离。
- 光谱引导域调制器 (SDM):
- 为每个频率子带附加一组可学习的域 token。
- 这些 token 通过轻量级 Transformer 块与 DWT 系数交互,生成域调制特征图,既保留原始图像的结构,又对光照变化具有鲁棒性。
- 频率自适应域融合 (FADF):
- 在测试时,系统计算输入图像的基于小波的频率特征。
- 然后将其与每个源域的特征进行相似度测量,并为相应的 SDM 输出分配软权重,实质上在不进行梯度更新的情况下“挑选”最相关的知识。
- 层次掩码提示精炼器 (HMPR):
- SAM 生成的粗血管掩码被送入一系列层次化的精炼阶段。
- 每个阶段使用 Transformer 风格的注意力模块,聚合全局上下文并在逐步提升的分辨率上细化掩码,恢复 SAM 上采样步骤中丢失的细小毛细血管细节。
所有组件均可在多源训练集上端到端训练,但仅 SDM 和 HMPR 需要梯度更新;FADF 完全在推理阶段运行。
Results & Findings
| 数据集 (LODO) | Dice ↑ | IoU ↑ | Avg. # Params |
|---|---|---|---|
| DRIVE (trained on others) | 0.923 | 0.862 | 45 M |
| STARE | 0.917 | 0.854 | 45 M |
| CHASE_DB1 | 0.911 | 0.846 | 45 M |
| HRF | 0.904 | 0.839 | 45 M |
- 相较基线的改进: WaveRNet 在 Dice 指标上比普通 SAM‑adapter 高出 3–5 %,并将因光照变化导致的性能下降降低超过一半。
- 消融研究: 移除小波分支会使 Dice 降低约 2 %;禁用 FADF 会使跨域鲁棒性下降约 1.8 %;省略 HMPR 会导致细血管召回率明显下降(约 4 %)。
- 速度: 额外的小波和 Transformer 模块仅在 RTX 3080 上为每张 512×512 图像增加约 15 ms 的开销,使整个流水线仍然在临床筛查的实时限制范围内。
实际意义
- 即插即用,适用于现有流水线: 开发者可以将 WaveRNet 包裹在任何基于 SAM 的分割服务上,只需极少的代码改动即可获得领域鲁棒性。
- 零样本部署: 医院或远程眼科平台可以在新的相机硬件或光照条件下运行模型,而无需收集额外的标注数据。
- 细血管保留: HMPR 模块确保微小毛细血管——早期疾病检测的关键——不被遗漏,从而提升下游诊断算法的性能(例如糖尿病视网膜病变分级)。
- 通用方案: 小波引导的 token 调制和频率自适应融合可迁移到其他光照或对比度变化的医学影像任务(例如皮肤病变分割、内镜检查)。
限制与未来工作
- 小波选择敏感性: 当前实现使用单层 Haar 小波;更复杂的多尺度或学习型小波基可以进一步提升性能。
- 领域令牌可扩展性: 随着源领域数量的增加,令牌库可能变得难以管理;未来工作可以探索层次化令牌共享或动态令牌生成。
- 临床验证: 虽然基准结果表现良好,但需要在真实筛查工作流中的前瞻性研究来确认诊断影响。
- 超越视网膜图像的扩展: 将该框架适配到 3D 模态(例如 OCT 体积)需要重新设计小波分解和内存高效的注意力机制。
作者
- Chanchan Wang
- Yuanfang Wang
- Qing Xu
- Guanxin Chen
论文信息
- arXiv ID: 2601.05942v1
- 分类: cs.CV
- 发布时间: 2026年1月9日
- PDF: Download PDF