[Paper] MedAI:评估 TxAgent 在 NeurIPS CURE-Bench 竞赛中的治疗性代理推理

发布: (2025年12月13日 GMT+8 00:01)
7 min read
原文: arXiv

Source: arXiv - 2512.11682v1

概览

本文 “MedAI:在 NeurIPS CURE‑Bench 竞赛中评估 TxAgent 的治疗代理推理能力” 介绍了作者如何构建并严格测试 TxAgent——一个能够对医疗治疗决策进行逐步推理的 AI 系统。通过将微调的 Llama‑3.1‑8B 模型与一套实时生物医学工具(FDA Drug API、OpenTargets、Monarch)相结合,TxAgent 展示了 agentic AI(能够即时调用外部函数的模型)能够满足临床决策支持对安全性和准确性的高要求。

主要贡献

  • Agentic RAG 架构:提出了 TxAgent,能够生成并执行对统一的 “ToolUniverse” 的函数调用,以获取最新的治疗数据。
  • 微调 Llama‑3.1‑8B:对 80 亿参数的紧凑模型进行适配,实现多步医学推理,同时保持推理成本在实际部署中可控。
  • 新颖的评估协议:将 token 级别的推理轨迹和工具使用序列视为显式监督信号,从而实现对正确性、工具选择和推理质量的细粒度度量。
  • 检索质量分析:展示了工具检索的精度(即正确选择 API 调用)与整体任务表现的直接相关性,并提出一种轻量级的检索增强方法,使 CURE‑Bench 排行榜分数得到提升。
  • 开放科学奖:在 NeurIPS 2025 获得卓越奖,并公开了代码、数据和评估脚本供社区复用。

方法论

  1. 基于 Prompt 的代理循环 – 模型接收临床查询(例如 “为一名患有高血压和慢性肾病的患者建议方案”),首先 生成 文本计划,然后 决定 调用哪个外部工具(例如 “在 FDA Drug API 中搜索 ACE 抑制剂”)。
  2. ToolUniverse – 一个薄抽象层,统一了三项公共生物医学服务:
    • FDA Drug API:提供批准的适应症、剂量和禁忌信息。
    • OpenTargets:提供疾病‑基因‑药物关联。
    • Monarch:提供表型‑基因‑疾病本体。
      代理发送 JSON 格式请求,接收结构化结果,并将其反馈到下一步推理中。
  3. 微调 – 在 200 k 条精心策划的合成医患对话语料上进一步训练基模型,每条对话都标注了正确的工具调用序列。该监督让模型学习 何时如何 调用工具,而不仅仅是生成文本。
  4. 在 CURE‑Bench 上评估 – 竞赛提供三项基准任务(药物推荐、治疗规划、不良反应预测)。作者测量了:
    • 最终答案的 Exact‑match 正确率
    • Tool‑usage 准确率(模型是否在正确时间调用了正确的 API)。
    • Reasoning trace 质量(中间步骤与金标准链式思考的一致性)。

结果与发现

任务Exact‑match ↑Tool‑usage ↑Reasoning‑trace F1 ↑
药物推荐78.4 %92.1 %0.84
治疗规划71.2 %89.5 %0.81
不良反应预测74.6 %90.3 %0.83
  • 检索提升:在调用 API 前加入轻量级 BM25 预过滤,使工具使用准确率提升约 3 点,整体 Exact‑match 分数提升 4–5 点。
  • 错误分析:大多数失误源于 工具调用顺序错误(例如在确认疾病适应症前就查询药物数据库)。当工具顺序与金标准轨迹匹配时,正确率提升超过 10 点。
  • 计算效率:尽管存在迭代调用,平均每条查询的延迟仍保持在 RTX 4090 上的 1.2 秒以内,表明系统可用于交互式临床决策支持。

实际意义

  • 临床决策支持(CDS)集成 – TxAgent 的模块化工具调用可以封装进现有 EHR 工作流,提供实时药物信息而无需硬编码静态知识库。
  • 合规准备的 AI – 通过公开每一步推理和工具调用,审计人员能够追踪推荐的生成过程,满足新兴的医疗 AI 治理框架。
  • 开发者友好 SDK – 开源的 tooluniverse Python 包抽象了 API 密钥、速率限制和响应解析,使开发者只需几行代码即可将 TxAgent 接入远程医疗机器人、药房自动化或科研流水线。
  • 可扩展到其他领域 – 相同的代理模式(LLM + 函数调用 + 检索增强选择)可复用于金融(合规检查)、网络安全(威胁情报查询)或任何需要最新外部数据的高风险领域。

局限性与未来工作

  • 知识库覆盖范围 – 目前 TxAgent 依赖的三大公共 API 存在覆盖盲区(如罕见孤儿药),可能导致推荐不完整。
  • 中间推理的幻觉风险 – 虽然工具调用为最终答案提供了依据,但模型有时会在 API 响应到达前生成看似合理却不正确的推理。
  • 评估偏差 – CURE‑Bench 使用合成患者案例;真实临床验证(前瞻性试验、临床医生可用性研究)仍待开展。
  • 未来方向:作者计划将 ToolUniverse 扩展至药理基因组学数据库,加入奖励正确工具序列的强化学习环路,并开展多中心临床试点,以衡量对处方安全的实际影响。

作者

  • Tim Cofala
  • Christian Kalfar
  • Jingge Xiao
  • Johanna Schrader
  • Michelle Tang
  • Wolfgang Nejdl

论文信息

  • arXiv ID: 2512.11682v1
  • 分类: cs.AI, cs.LG
  • 发布日期: 2025 年 12 月 12 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »