[Paper] MedAI:评估 TxAgent 在 NeurIPS CURE-Bench 竞赛中的治疗性代理推理
发布: (2025年12月13日 GMT+8 00:01)
7 min read
原文: arXiv
Source: arXiv - 2512.11682v1
概览
本文 “MedAI:在 NeurIPS CURE‑Bench 竞赛中评估 TxAgent 的治疗代理推理能力” 介绍了作者如何构建并严格测试 TxAgent——一个能够对医疗治疗决策进行逐步推理的 AI 系统。通过将微调的 Llama‑3.1‑8B 模型与一套实时生物医学工具(FDA Drug API、OpenTargets、Monarch)相结合,TxAgent 展示了 agentic AI(能够即时调用外部函数的模型)能够满足临床决策支持对安全性和准确性的高要求。
主要贡献
- Agentic RAG 架构:提出了 TxAgent,能够生成并执行对统一的 “ToolUniverse” 的函数调用,以获取最新的治疗数据。
- 微调 Llama‑3.1‑8B:对 80 亿参数的紧凑模型进行适配,实现多步医学推理,同时保持推理成本在实际部署中可控。
- 新颖的评估协议:将 token 级别的推理轨迹和工具使用序列视为显式监督信号,从而实现对正确性、工具选择和推理质量的细粒度度量。
- 检索质量分析:展示了工具检索的精度(即正确选择 API 调用)与整体任务表现的直接相关性,并提出一种轻量级的检索增强方法,使 CURE‑Bench 排行榜分数得到提升。
- 开放科学奖:在 NeurIPS 2025 获得卓越奖,并公开了代码、数据和评估脚本供社区复用。
方法论
- 基于 Prompt 的代理循环 – 模型接收临床查询(例如 “为一名患有高血压和慢性肾病的患者建议方案”),首先 生成 文本计划,然后 决定 调用哪个外部工具(例如 “在 FDA Drug API 中搜索 ACE 抑制剂”)。
- ToolUniverse – 一个薄抽象层,统一了三项公共生物医学服务:
- FDA Drug API:提供批准的适应症、剂量和禁忌信息。
- OpenTargets:提供疾病‑基因‑药物关联。
- Monarch:提供表型‑基因‑疾病本体。
代理发送 JSON 格式请求,接收结构化结果,并将其反馈到下一步推理中。
- 微调 – 在 200 k 条精心策划的合成医患对话语料上进一步训练基模型,每条对话都标注了正确的工具调用序列。该监督让模型学习 何时、如何 调用工具,而不仅仅是生成文本。
- 在 CURE‑Bench 上评估 – 竞赛提供三项基准任务(药物推荐、治疗规划、不良反应预测)。作者测量了:
- 最终答案的 Exact‑match 正确率。
- Tool‑usage 准确率(模型是否在正确时间调用了正确的 API)。
- Reasoning trace 质量(中间步骤与金标准链式思考的一致性)。
结果与发现
| 任务 | Exact‑match ↑ | Tool‑usage ↑ | Reasoning‑trace F1 ↑ |
|---|---|---|---|
| 药物推荐 | 78.4 % | 92.1 % | 0.84 |
| 治疗规划 | 71.2 % | 89.5 % | 0.81 |
| 不良反应预测 | 74.6 % | 90.3 % | 0.83 |
- 检索提升:在调用 API 前加入轻量级 BM25 预过滤,使工具使用准确率提升约 3 点,整体 Exact‑match 分数提升 4–5 点。
- 错误分析:大多数失误源于 工具调用顺序错误(例如在确认疾病适应症前就查询药物数据库)。当工具顺序与金标准轨迹匹配时,正确率提升超过 10 点。
- 计算效率:尽管存在迭代调用,平均每条查询的延迟仍保持在 RTX 4090 上的 1.2 秒以内,表明系统可用于交互式临床决策支持。
实际意义
- 临床决策支持(CDS)集成 – TxAgent 的模块化工具调用可以封装进现有 EHR 工作流,提供实时药物信息而无需硬编码静态知识库。
- 合规准备的 AI – 通过公开每一步推理和工具调用,审计人员能够追踪推荐的生成过程,满足新兴的医疗 AI 治理框架。
- 开发者友好 SDK – 开源的
tooluniversePython 包抽象了 API 密钥、速率限制和响应解析,使开发者只需几行代码即可将 TxAgent 接入远程医疗机器人、药房自动化或科研流水线。 - 可扩展到其他领域 – 相同的代理模式(LLM + 函数调用 + 检索增强选择)可复用于金融(合规检查)、网络安全(威胁情报查询)或任何需要最新外部数据的高风险领域。
局限性与未来工作
- 知识库覆盖范围 – 目前 TxAgent 依赖的三大公共 API 存在覆盖盲区(如罕见孤儿药),可能导致推荐不完整。
- 中间推理的幻觉风险 – 虽然工具调用为最终答案提供了依据,但模型有时会在 API 响应到达前生成看似合理却不正确的推理。
- 评估偏差 – CURE‑Bench 使用合成患者案例;真实临床验证(前瞻性试验、临床医生可用性研究)仍待开展。
- 未来方向:作者计划将 ToolUniverse 扩展至药理基因组学数据库,加入奖励正确工具序列的强化学习环路,并开展多中心临床试点,以衡量对处方安全的实际影响。
作者
- Tim Cofala
- Christian Kalfar
- Jingge Xiao
- Johanna Schrader
- Michelle Tang
- Wolfgang Nejdl
论文信息
- arXiv ID: 2512.11682v1
- 分类: cs.AI, cs.LG
- 发布日期: 2025 年 12 月 12 日
- PDF: Download PDF