[Paper] AnatomiX,一种解剖感知的基于真实的多模态大型语言模型用于胸部X光片解读
发布: (2026年1月7日 GMT+8 01:13)
6 min read
原文: arXiv
Source: arXiv - 2601.03191v1
请提供您希望翻译的具体文本内容,我将为您翻译成简体中文并保持原有的格式。
概述
AnatomiX 是一种新的多模态大型语言模型(LLM),将胸部 X 光的视觉理解与解剖学意识相结合。通过在胸腔解剖结构上显式地对推理进行定位,模型能够提供更可靠的解释——这对于临床决策支持以及需要“知道”发现位置的下游 AI 工具至关重要。
关键贡献
- Anatomy‑aware two‑stage pipeline – 首先检测并提取特定胸部结构的特征,然后将这些表征输入语言模型以完成下游任务。
- Unified multitask framework – 使用单一模型支持短语定位、报告生成、视觉问答(VQA)以及图像理解。
- State‑of‑the‑art grounding performance – 相较于之前的多模态医学大语言模型,在解剖定位、短语定位、定位诊断和定位字幕基准上实现了超过 25 % 的相对提升。
- Open‑source release – 代码和预训练权重已公开,促进了可重复性和社区的快速采用。
方法论
-
解剖结构识别
- 一个专用的视觉编码器(例如 CNN 或 ViT)处理胸部 X 光,并为关键解剖部位(肺、心脏、肋骨、纵隔等)生成区域提议。
- 一个轻量级分类器对这些提议进行细化,生成一组 解剖标记,每个标记都配有视觉嵌入。
-
特征提取与融合
- 将视觉嵌入投射到与语言模型的标记嵌入相同的潜在空间。
- 跨模态注意力层使得大型语言模型在生成文本或回答问题时能够有选择地关注解剖标记。
-
任务头部
- 短语定位:将医学短语(例如 “右下叶浑浊”)与相应的解剖标记对齐。
- 报告生成:基于有序的解剖标记对语言模型进行条件化,以生成结构化的放射学报告。
- VQA / 图像理解:通过关注相关的解剖区域来解释自然语言查询,然后给出答案。
整个系统在多个公开的胸部 X 光数据集(例如 MIMIC‑CXR、CheXpert)的混合上进行端到端训练,监督包括视觉定位和语言生成两方面。
结果与发现
- 解剖定位:78 % 准确率(相较于最强基线的 62 %)。
- 短语定位:71 % IoU‑基准得分,提升 27 %(相对提升)。
- 基于定位的诊断:在模型被迫引用相关解剖部位时,疾病分类的 F1 为 84%,比基线高出 25 %。
- 基于定位的字幕生成:BLEU‑4 得分 0.38,较之前方法提升 >0.1 分,同时提供明确的区域标签。
这些数据表明,AnatomiX 不仅能够预测正确的发现,还能准确定位它们——这是实现放射学可信 AI 的关键一步。
实际影响
- 临床决策支持:放射科医生可以收到 AI 生成的报告,明确引用解剖位置,降低歧义并简化验证。
- 合规监管:基于事实的解释满足医疗软件中日益增长的“可解释 AI”要求,使获得 FDA 或 CE 认证更为容易。
- 开发者工具:开源模型可集成到 PACS 查看器、远程放射平台或研究流水线中,添加解剖感知的 VQA 或自动报告撰写,所需工程工作量极小。
- 数据标注:解剖检测阶段可重新用作半自动标注器,加速其他胸部影像任务的标注数据集创建。
限制与未来工作
- 数据集偏差:训练严重依赖公开的胸部 X‑ray 数据集,这可能导致对罕见病理或儿科病例的代表性不足。
- 分辨率限制:视觉编码器在下采样图像(≈224×224)上运行,可能遗漏细粒度的细节,例如微妙的间质模式。
- 对其他模态的泛化:虽然该流水线针对胸部 X‑ray 设计,但将其扩展到 CT、MRI 或超声需要新的解剖标记定义,并可能需要更大的视觉骨干网络。
- 未来方向:作者计划 (1) 引入更高分辨率的特征图,(2) 探索自监督的解剖发现以降低对标注掩码的依赖,以及 (3) 在前瞻性临床工作流中评估模型,以衡量实际影响。
作者
- Anees Ur Rehman Hashmi
- Numan Saeed
- Christoph Lippert
论文信息
- arXiv ID: 2601.03191v1
- 分类: cs.CV, cs.AI, cs.LG
- 出版日期: 2026年1月6日
- PDF: 下载 PDF