[Paper] RANGER: 稀疏门控混合专家与自适应检索再排序用于病理报告生成

发布: (2026年3月5日 GMT+8 02:12)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.04348v1

概述

病理报告生成——自动将千兆像素全切片图像(WSIs)转化为连贯的诊断文本——由于图像尺寸庞大以及组织样本的视觉复杂性,一直落后于其他医学 AI 任务。全新的 RANGER 框架通过将稀疏门控的 Mixture‑of‑Experts (MoE) 解码器与自适应检索‑再排序模块相结合,解决了这一瓶颈,使模型能够在专注语言生成的同时过滤掉噪声外部知识。

关键贡献

  • Sparsely‑gated MoE decoder – 引入动态专家路由(top‑k gating + load‑balancing),使不同的“专家”专注于不同的诊断模式(例如,肿瘤形态学、基质反应)。
  • Noisy top‑k routing – 故意在专家选择中加入少量“噪声”,以提升模型的鲁棒性并在异质切片上实现更好的泛化。
  • Adaptive retrieval re‑ranking – 通过使用视觉特征相似度重新打分,对给定切片检索到的知识库片段进行细化排序,降低无关或矛盾的指导信息。
  • End‑to‑end training on PathText‑BRCA – 在 PathText‑BRCA 上进行端到端训练,证明结合 MoE 与检索的流水线在所有主要 NLG 指标上均优于之前仅使用 transformer 的基线。
  • Scalable design – MoE 门控使推理成本保持低廉(每个 token 只激活少数专家),同时仍能利用庞大的专家池实现专门化。

方法论

  1. 特征提取 – 使用 CNN 主干网络(例如 ResNet‑50)在可管理的分辨率下处理 WSI,生成一组捕获组织形态的视觉嵌入。
  2. 知识检索 – 使用视觉嵌入查询预构建的文本知识库(例如既往病理报告、医学本体),返回候选句子的排序列表。
  3. 自适应重排序 – 通过一个相似度网络对检索到的候选项重新打分,使视觉嵌入与文本嵌入对齐,仅保留语义最匹配的片段。
  4. 混合专家解码器(Mixture‑of‑Experts Decoder) – 将语言模型的解码器替换为稀疏门控的 MoE 层。在每个生成步骤中:
    • 轻量路由器根据当前隐藏状态为所有专家计算分数。
    • 激活前 k 个专家(k ≈ 2–4);在分数上加入少量随机噪声,以避免过度依赖单一专家。
    • 负载平衡正则化确保所有专家都能获得足够的训练数据。
  5. 融合 – 将精炼后的检索文本与视觉上下文拼接后输入 MoE 解码器,逐 token 生成最终报告。

所有组件均可微分,支持对视觉编码、检索重排序和专家路由的联合优化。

结果与发现

MetricRANGERPrior State‑of‑the‑Art
BLEU‑10.45980.4211
BLEU‑20.30440.2678
BLEU‑30.20360.1765
BLEU‑40.14350.1192
METEOR0.18830.1620
ROUGE‑L0.30380.2741
  • 在所有 n‑gram 级别上均实现一致提升,表明词汇覆盖率和流畅性更佳。
  • 消融实验显示,去除 MoE(使用普通 transformer)会使 BLEU‑4 下降约 6 分,而禁用自适应重排序会使 METEOR 下降约 4 分,验证了每个组件的贡献。
  • 负载平衡损失使专家利用率保持在理论最大值的约 80%,防止“专家崩溃”。

Practical Implications

  • 更快、更准确的报告草拟 – 病理实验室可以将 RANGER 集成到其切片审阅流水线中,实现报告的自动初稿生成,让病理学家专注于验证而非转录。
  • 领域特定语言模型 – MoE 设计可以重新用于其他医学报告生成任务(放射学、皮肤科),在视觉模式多样化的情况下,提供专门的语言子模型。
  • 降低对噪声外部数据的依赖 – 自适应重排序确保只有最相关的知识片段影响输出,减轻幻觉风险——这是临床 AI 的常见顾虑。
  • 可扩展部署 – 由于每个 token 只激活少数专家,推理速度与标准 Transformer 相当,能够在医院 IT 环境中常见的本地 GPU 集群上运行。
  • 持续学习的潜力 – 可以将新的诊断类别作为新专家加入,而无需重新训练整个模型,支持不断演进的临床指南。

限制与未来工作

  • 内存占用 – 存储大量专家池和规模可观的文本知识库仍然需要相当多的 GPU 显存;压缩技术尚未探索。
  • 超出 BRCA 的泛化能力 – 实验仅限于 PathText‑BRCA 数据集;在其他癌症类型或多器官数据集上的表现仍需验证。
  • 专家路由的可解释性 – 虽然路由器会动态选择专家,但论文未提供系统化的方法将每个专家映射到临床上有意义的子任务。未来工作可以加入专家层级的归因以提升信任度。
  • 实时约束 – 当前流水线以批处理方式处理 WSI;为现场护理应用优化单张切片、低延迟推理是必要的。

RANGER 证明,将稀疏门控的 Mixture‑of‑Experts 与智能知识检索相结合,可推动病理报告生成向实用、临床就绪的性能迈进。对于有兴趣构建 AI 辅助诊断工具的开发者,本文提供了一个将视觉‑语言模型与模块化、专科组件相结合的具体蓝图。

作者

  • Yixin Chen
  • Ziyu Su
  • Hikmat Khan
  • Muhammad Khalid Khan Niazi

论文信息

  • arXiv ID: 2603.04348v1
  • Categories: cs.CV, cs.AI
  • Published: 2026年3月4日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[论文] SimpliHuMoN: 简化人体动作预测

Human motion prediction 将轨迹预测(trajectory forecasting)和人体姿态预测(human pose prediction)这两个任务结合在一起。针对这两个任务,已经开发了专门的模型……