[Paper] 用于多框架通信编码的 Agentic AI 系统
发布: (2025年12月9日 GMT+8 22:46)
7 min read
原文: arXiv
Source: arXiv - 2512.08659v1
概览
本文提出了 MOSAIC,一种模块化 AI 系统,能够使用多种沟通框架自动标注临床对话。通过在 LangGraph 工作流中串联专门的代理,MOSAIC 在保持对不同医学专科和编码方案的适应性的同时,实现了接近人类的准确度。
主要贡献
- 代理架构:引入基于 LangGraph 的流水线,包含四个协同工作代理(计划、更新、标注、验证),共同完成码本选择、数据检索、生成和一致性检查。
- 多框架支持:能够跨多个已有的沟通码本(例如患者行为、提供者共情)工作,无需为每个码本重新训练单一模型。
- 检索增强生成 (RAG) + 动态少样本提示:将最新的领域文献与即时构建的提示相结合,使系统既保持时效性又具上下文感知。
- 高实证性能:在 50 条对话的留出测试集上整体 F1 达 0.928,在风湿免疫科达到峰值 F1 0.962。
- 开源友好设计:基于 LangGraph,这是一套 Python 框架,开发者可以在现有健康技术流水线中扩展或嵌入。
方法论
- 计划代理 – 接收用户指定的沟通框架(如 “患者行为”),选择相应的码本,并为下游代理制定逐步工作流程。
- 更新代理 – 定期刷新临床文献、指南和已标注对话的向量库,确保检索组件始终使用最新证据。
- 标注代理 – 对对话的每个片段执行 检索增强生成:
- 从向量库检索 top‑k 相关段落。
- 构建包含码本定义和检索片段的 动态少样本提示。
- 使用大语言模型(LLM)为该片段生成标签(或标签集合)。
- 验证代理 – 对整个转录本进行一致性检查(如不存在冲突标签、遵守码本约束),并将纠正反馈返回给标注代理。
整个流水线由 LangGraph 编排,每个代理被视为有向图中的节点,便于调试、并行执行以及组件的即插即用替换。
结果与发现
| 领域 / 子集 | F1 分数 | 主要优势 |
|---|---|---|
| 整体测试集 | 0.928 | 在所有框架上保持高一致性 |
| 风湿免疫科 | 0.962 | 表现最佳,可能得益于更丰富的训练数据 |
| OB/GYN(妇产科) | ~0.89 | 略低但仍保持强劲 |
| 患者行为标签 | 最高精确率/召回率 | 能很好捕捉问题、偏好、主张等信息 |
消融实验表明,去除任意一个代理都会导致性能下降 3–7 个百分点,验证了计划、最新检索和验证三个环节的必要性。与单任务 LLM 基线相比,MOSAIC 的平均 F1 提升约 0.12。
实际意义
- 可扩展标注:健康技术平台可以自动对大量医患对话进行编码,用于质量改进仪表盘、合规监控或研究数据集,而无需雇佣标注团队。
- 快速适配:想要加入新沟通框架(如共享决策)?只需接入新的码本,计划代理即可生成相应工作流,无需完整模型再训练。
- 持续学习:更新代理的检索数据库可每日刷新最新临床指南,确保系统与不断演进的最佳实践保持一致。
- 开发者友好:基于 LangGraph,开发者可以轻松替换底层 LLM(例如从 OpenAI GPT‑4 换成本地部署的 Llama 2)或更换向量库(FAISS、Milvus 等),改动代码极少。
- 合规与可审计:验证代理提供可追溯的一致性检查,可记录用于合规审计或生成对 AI 决策的可读解释。
局限性与未来工作
- 训练数据规模:模型仅在 26 条金标准转录本上进行训练;尽管表现出色,但仍需在更大、更具多样性的数据集上进行广泛验证。
- 领域迁移:妇产科表现略有下降,说明需要更丰富的领域特定检索语料或额外的微调以提升泛化能力。
- 可解释性:虽然验证代理记录不一致之处,但系统尚未为每个标签生成自然语言的推理解释——这是作者计划进一步探索的方向。
- 真实部署:处理嘈杂的音频转录、多语言对话以及隐私保护的检索(如设备端嵌入)仍是生产环境中的未解挑战。
核心结论:MOSAIC 证明了基于代理的检索增强方法能够将临床沟通编码质量提升至接近人类水平,为健康技术生态系统提供了可扩展、可适配的 AI 工具。
作者
- Bohao Yang
- Rui Yang
- Joshua M. Biro
- Haoyuan Wang
- Jessica L. Handley
- Brianna Richardson
- Sophia Bessias
- Nicoleta Economou‑Zavlanos
- Armando D. Bedoya
- Monica Agrawal
- Michael M. Zavlanos
- Anand Chowdhury
- Raj M. Ratwani
- Kai Sun
- Kathryn I. Pollak
- Michael J. Pencina
- Chuan Hong
论文信息
- arXiv ID: 2512.08659v1
- 分类: cs.CL, cs.LG
- 发布日期: 2025 年 12 月 9 日
- PDF: Download PDF