[Paper] 多LLM协作用于药物推荐

发布: 2个月前 (2025年12月5日 GMT+8 02:25)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.05066v1

概览

本文探讨了多个大型语言模型（LLM）如何协同工作——而非单独运行——以从简短的临床案例中生成更安全、更可靠的用药建议。通过将模型之间的交互视为“化学”问题，作者展示了精心编排的集成可以降低幻觉并提升一致性，这对于在医疗保健领域构建可信赖的 AI 助手至关重要。

主要贡献

LLM 化学框架： 将作者先前的“LLM Chemistry”概念扩展，用于量化和优化异构 LLM 之间的协作兼容性。
交互感知集成设计： 提出一种系统化的模型组合方式，在平衡互补优势的同时抑制错误放大。
真实临床评估： 在真实患者情境上测试了基于化学指导的多 LLM 系统，展示了推荐质量和稳定性的可衡量提升。
校准与稳定性指标： 提出针对用药处方安全关键领域的新评估指标（如模型间一致性、校准误差）。
开源基线： 公开实验使用的代码和提示，便于开发者社区复现和快速迭代。

方法论

模型池选择： 作者汇集了一组多样化的 LLM（如 GPT‑4、Claude、LLaMA‑2），它们在规模、训练数据和提示风格上各不相同。
受化学启发的交互建模：
- 将每个模型的输出编码为向量表示。
- 使用相似度函数计算成对的“亲和力”得分，以捕捉模型推理的一致程度。
- 鼓励高亲和力的模型协作，降低低亲和力模型的权重，以避免破坏性干扰。
协作提示流水线：
- 主模型生成初始用药建议。
- 次模型根据亲和力得分对建议进行批评、完善或验证。
- 最终聚合步骤选取最具共识的答案，并通过校准层惩罚离群建议。
评估设置： 系统在一个经筛选的去标识化临床案例数据集上运行，覆盖常见疾病（如高血压、糖尿病）。真实推荐依据已建立的临床指南得到。

该方法刻意保持模块化，开发者可以在不重新设计整个流水线的情况下插入新 LLM 或更换亲和力度量。

结果与发现

指标	单模型基线	简单集成	化学指导的多 LLM
准确率（符合指南）	71%	73%	81%
幻觉率（错误药物）	12%	9%	4%
模型间一致性（Cohen’s κ）	—	0.42	0.68
校准误差（ECE）	0.18	0.15	0.09

有效性： 化学指导的集成在准确率上超越了单模型和简单多数投票集成，逼近专家水平的推荐。
稳定性： 模型间的一致性显著提升，说明系统在不同运行之间产生更一致的输出。
安全性： 幻觉（即建议不恰当药物）的比例降至个位数，对临床采纳至关重要。

作者指出，当模型池同时包含高容量模型（如 GPT‑4）和更专业、体积较小的模型时，收益最为显著，验证了互补专长的价值。

实际意义

临床决策支持（CDS）工具： 开发者可将化学指导的集成嵌入电子健康记录（EHR）系统的后端服务，为临床医生提供更少幻觉的第二意见。
合规监管： 改进的校准和降低的错误放大有助于满足新兴的 AI 医疗标准（如 FDA 的《良好机器学习实践》）。
快速原型： 模块化流水线使团队能够在新 LLM 出现时进行实验，而无需重新构建整个推荐引擎。
跨领域迁移： 交互感知的集成概念可适用于其他安全关键领域，如法律咨询、金融风险评估或自动驾驶决策。
开发者工具： 开源库提供了计算亲和力得分、管理提示编排和可视化模型一致性的实用工具，是任何多 LLM 应用的构建块。

局限性与未来工作

数据集范围： 评估仅覆盖常见疾病；罕见病和多药共用情景尚未测试。
延迟开销： 协调多个 LLM 调用会增加推理延迟，可能不适用于实时床旁使用。
亲和力度量的简易性： 当前相似度基于表层文本嵌入；更丰富的语义或因果推理度量有望进一步提升协作。
人工在环验证： 研究止步于自动化指标；需要大量临床医生用户研究来评估信任度和可用性。

未来研究方向包括：将框架扩展至更大模型池、为低延迟环境优化编排、以及集成显式不确定性量化以向终端用户展示置信水平。

作者

Huascar Sanchez
Briland Hitaj
Jules Bergmann
Linda Briesemeister

论文信息

arXiv ID: 2512.05066v1
分类: cs.LG, cs.AI, cs.CL
发表时间: 2025 年 12 月 4 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 用 Entity Linking 提升教育平台的 Retrieval-Augmented Generation

在大型语言模型（LLMs）时代，检索增强生成（RAG）架构因其能够将语言……

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

视觉语言模型（VLMs）在视觉问答（VQA）中取得了强劲的表现，但它们仍受限于静态的训练数据。检索…

[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

Grounding 是构建图形用户界面 (GUI) 代理的基本能力。虽然现有方法依赖于大规模的 bounding box 监督……

[论文] 犯错是人之常情：通过 LLM 分析对已发表 AI 论文错误的系统量化

已发表的 AI 论文包含多少错误？同行评审的出版物构成了新研究和知识构建的基础。出现的错误……