[Paper] MedAI：评估 TxAgent 在 NeurIPS CURE-Bench 竞赛中的治疗性代理推理

发布: 4个月前 (2025年12月13日 GMT+8 00:01)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.11682v1

概览

本文 “MedAI：在 NeurIPS CURE‑Bench 竞赛中评估 TxAgent 的治疗代理推理能力” 介绍了作者如何构建并严格测试 TxAgent——一个能够对医疗治疗决策进行逐步推理的 AI 系统。通过将微调的 Llama‑3.1‑8B 模型与一套实时生物医学工具（FDA Drug API、OpenTargets、Monarch）相结合，TxAgent 展示了 agentic AI（能够即时调用外部函数的模型）能够满足临床决策支持对安全性和准确性的高要求。

主要贡献

Agentic RAG 架构：提出了 TxAgent，能够生成并执行对统一的 “ToolUniverse” 的函数调用，以获取最新的治疗数据。
微调 Llama‑3.1‑8B：对 80 亿参数的紧凑模型进行适配，实现多步医学推理，同时保持推理成本在实际部署中可控。
新颖的评估协议：将 token 级别的推理轨迹和工具使用序列视为显式监督信号，从而实现对正确性、工具选择和推理质量的细粒度度量。
检索质量分析：展示了工具检索的精度（即正确选择 API 调用）与整体任务表现的直接相关性，并提出一种轻量级的检索增强方法，使 CURE‑Bench 排行榜分数得到提升。
开放科学奖：在 NeurIPS 2025 获得卓越奖，并公开了代码、数据和评估脚本供社区复用。

方法论

基于 Prompt 的代理循环 – 模型接收临床查询（例如 “为一名患有高血压和慢性肾病的患者建议方案”），首先生成文本计划，然后决定调用哪个外部工具（例如 “在 FDA Drug API 中搜索 ACE 抑制剂”）。
ToolUniverse – 一个薄抽象层，统一了三项公共生物医学服务：
- FDA Drug API：提供批准的适应症、剂量和禁忌信息。
- OpenTargets：提供疾病‑基因‑药物关联。
- Monarch：提供表型‑基因‑疾病本体。
  代理发送 JSON 格式请求，接收结构化结果，并将其反馈到下一步推理中。
微调 – 在 200 k 条精心策划的合成医患对话语料上进一步训练基模型，每条对话都标注了正确的工具调用序列。该监督让模型学习何时、如何调用工具，而不仅仅是生成文本。
在 CURE‑Bench 上评估 – 竞赛提供三项基准任务（药物推荐、治疗规划、不良反应预测）。作者测量了：
- 最终答案的 Exact‑match 正确率。
- Tool‑usage 准确率（模型是否在正确时间调用了正确的 API）。
- Reasoning trace 质量（中间步骤与金标准链式思考的一致性）。

结果与发现

任务	Exact‑match ↑	Tool‑usage ↑	Reasoning‑trace F1 ↑
药物推荐	78.4 %	92.1 %	0.84
治疗规划	71.2 %	89.5 %	0.81
不良反应预测	74.6 %	90.3 %	0.83

检索提升：在调用 API 前加入轻量级 BM25 预过滤，使工具使用准确率提升约 3 点，整体 Exact‑match 分数提升 4–5 点。
错误分析：大多数失误源于 工具调用顺序错误（例如在确认疾病适应症前就查询药物数据库）。当工具顺序与金标准轨迹匹配时，正确率提升超过 10 点。
计算效率：尽管存在迭代调用，平均每条查询的延迟仍保持在 RTX 4090 上的 1.2 秒以内，表明系统可用于交互式临床决策支持。

实际意义

临床决策支持（CDS）集成 – TxAgent 的模块化工具调用可以封装进现有 EHR 工作流，提供实时药物信息而无需硬编码静态知识库。
合规准备的 AI – 通过公开每一步推理和工具调用，审计人员能够追踪推荐的生成过程，满足新兴的医疗 AI 治理框架。
开发者友好 SDK – 开源的 tooluniverse Python 包抽象了 API 密钥、速率限制和响应解析，使开发者只需几行代码即可将 TxAgent 接入远程医疗机器人、药房自动化或科研流水线。
可扩展到其他领域 – 相同的代理模式（LLM + 函数调用 + 检索增强选择）可复用于金融（合规检查）、网络安全（威胁情报查询）或任何需要最新外部数据的高风险领域。

局限性与未来工作

知识库覆盖范围 – 目前 TxAgent 依赖的三大公共 API 存在覆盖盲区（如罕见孤儿药），可能导致推荐不完整。
中间推理的幻觉风险 – 虽然工具调用为最终答案提供了依据，但模型有时会在 API 响应到达前生成看似合理却不正确的推理。
评估偏差 – CURE‑Bench 使用合成患者案例；真实临床验证（前瞻性试验、临床医生可用性研究）仍待开展。
未来方向：作者计划将 ToolUniverse 扩展至药理基因组学数据库，加入奖励正确工具序列的强化学习环路，并开展多中心临床试点，以衡量对处方安全的实际影响。

作者

Tim Cofala
Christian Kalfar
Jingge Xiao
Johanna Schrader
Michelle Tang
Wolfgang Nejdl

论文信息

arXiv ID: 2512.11682v1
分类: cs.AI, cs.LG
发布日期: 2025 年 12 月 12 日
PDF: Download PDF

[Paper] MedAI：评估 TxAgent 在 NeurIPS CURE-Bench 竞赛中的治疗性代理推理

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 一种通过随机顺序添加检测高阶交互的通用算法

[论文] Softmax 作为大提示场景下的线性注意力：基于测度的视角

[Paper] Super Suffixes：同时绕过文本生成对齐和防护模型