[Paper] 自动化立体定向放射外科计划使用人机交互推理的大型语言模型代理

发布: (2025年12月24日 GMT+8 02:32)
8 min read
原文: arXiv

Source: arXiv - 2512.20586v1

概览

The paper introduces SAGE (Secure Agent for Generative Dose Expertise), a large‑language‑model (LLM)‑driven system that automatically creates stereotactic radiosurgery (SRS) treatment plans for brain metastases. By embedding chain‑of‑thought (CoT) reasoning into the model, the authors show that the system can match human planners in dosimetric quality while producing a transparent, auditable “thinking trace” that addresses clinicians’ trust concerns about black‑box AI.

关键贡献

  • Human‑in‑the‑loop LLM 代理: 首个将大型语言模型与显式推理步骤(约束检查、权衡讨论)相结合的 SRS 计划工具。
  • 两种模型变体: 一个基线的“非推理” LLM 和一个启用 CoT(思维链)的“推理” LLM,能够直接进行头对头的性能比较。
  • 剂量学等效性: 推理变体在覆盖率、最大剂量、一致性指数和梯度指数方面与专家人工计划在统计上无显著差异。
  • 改进的危及器官(OAR)保护: 与人工基线相比,显著降低了耳蜗剂量(p = 0.022)。
  • 可审计的计划日志: 推理模型每例生成 457 次约束验证事件和 609 次权衡讨论,提供可追溯的决策记录。
  • 回顾性验证: 在 41 例单次 18 Gy SRS 患者中进行测试,展示了在真实临床数据集中的可行性。

方法论

  1. 数据收集 – 收集了 41 例已去标识的脑转移病例,这些病例之前使用手动 SRS 计划进行治疗,包含靶体积(PTV)和关键结构轮廓。
  2. 提示工程 – 制作了两种提示模板:
    • 非推理:直接要求 LLM 输出剂量分布参数。
    • 推理:插入链式思考框架,迫使模型 (a) 列出所有相关约束,(b) 将每个约束与当前草案计划进行核对,(c) 在最终确定数值前明确讨论权衡。
  3. LLM 主干 – 两种变体使用相同的底层大语言模型(例如 GPT‑4 风格),唯一区别在于是否使用推理提示。
  4. 计划合成 – LLM 输出一组优化目标(如剂量限制、加权因子),这些目标被输入到传统的治疗计划优化器中(即与人工规划师使用的同一引擎)。
  5. 评估指标 – 测量标准的 SRS 剂量学终点:PTV 覆盖率 (V100%)、最大剂量 (Dmax)、符合指数 (CI)、梯度指数 (GI) 以及关键器官剂量 (如耳蜗、视神经系统)。使用配对 t 检验评估统计显著性。
  6. 内容分析 – 解析生成的日志,统计约束验证和因果解释的出现次数,以比较两种模型变体。

结果与发现

指标人类规划师推理 LLM非推理 LLM
PTV 覆盖率 (V100%)99.2 %99.1 % (p > 0.21)97.8 % (p < 0.05)
最大剂量 (Dmax)20.5 Gy20.4 Gy (p > 0.21)21.1 Gy (p < 0.05)
符合指数1.121.13 (p > 0.21)1.18 (p < 0.05)
梯度指数3.43.5 (p > 0.21)3.8 (p < 0.05)
耳蜗剂量4.2 Gy3.5 Gy (p = 0.022)4.3 Gy (ns)
  • 推理 LLM 在所有主要终点上均与人类规划师匹配;非推理 LLM 在多个指标上表现不足。
  • 当要求“改进符合度”时,推理模型系统性地执行了 457 次约束验证 步骤和 609 次权衡讨论,而基线模型几乎没有(分别为 0 次和 7 次)。
  • 定性分析显示,推理轨迹包含明确的因果解释(例如,“增加梯度权重会降低对视交叉的剂量溢出,但可能降低 PTV 覆盖率”),而基线输出中缺乏此类解释。

实际意义

  • 加速的计划工作流:诊所可以在几分钟内生成高质量的 SRS 计划,使物理师能够专注于验证和患者特定的细节。
  • 合规透明度:可审计的推理日志满足了放射肿瘤学中 AI 采用的关键障碍——为每一次优化决策提供可读的人类解释。
  • 可扩展的专业知识:缺乏经验丰富剂量学家的小型中心可以利用 SAGE,实现与高容量学术机构相当的计划质量。
  • 集成路径:由于 SAGE 输出标准的优化器参数,可直接嵌入现有的治疗计划系统(如 Eclipse、RayStation),无需进行大型软件改造。
  • 持续学习的潜力:可收集推理轨迹,以微调大语言模型(LLM)或训练下游监督模型,预测新病例的最佳约束层级。

限制与未来工作

  • 回顾性、单机构数据集:仅在 41 例上进行验证,限制了结果的普适性;需要多中心前瞻性试验。
  • LLM 幻觉风险:尽管推理可以降低错误,但模型仍可能捏造约束或误解解剖结构;需要稳健的防护措施(例如基于规则的验证)。
  • 硬件与延迟:使用大型 LLM 进行实时推理可能需要 GPU 集群,这对部分诊所构成障碍。
  • 向多分割或非脑部位的扩展:本研究聚焦于单次分割的脑部 SRS;将框架适配到其他解剖部位或分割方案仍是未解挑战。
  • 用户界面设计:将推理过程转化为临床医生易于使用的直观 UI 对于推广至关重要,但本工作未涉及此方面。

核心结论:通过将链式思考提示与传统剂量优化引擎相结合,SAGE 证明了在高风险医学领域,LLM 可以既有效透明,为放射肿瘤学中更广泛的 AI 辅助治疗计划打开了大门。

作者

  • Humza Nusrat
  • Luke Francisco
  • Bing Luo
  • Hassan Bagher‑Ebadian
  • Joshua Kim
  • Karen Chin‑Snyder
  • Salim Siddiqui
  • Mira Shah
  • Eric Mellon
  • Mohammad Ghassemi
  • Anthony Doemer
  • Benjamin Movsas
  • Kundan Thind

论文信息

  • arXiv ID: 2512.20586v1
  • 类别: cs.AI, cs.CL, cs.HC
  • 发表时间: 2025年12月23日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »