[Paper] AnatomiX，一种解剖感知的基于真实的多模态大型语言模型用于胸部X光片解读

发布: 1个月前 (2026年1月7日 GMT+8 01:13)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.03191v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文并保持原有的格式。

概述

AnatomiX 是一种新的多模态大型语言模型（LLM），将胸部 X 光的视觉理解与解剖学意识相结合。通过在胸腔解剖结构上显式地对推理进行定位，模型能够提供更可靠的解释——这对于临床决策支持以及需要“知道”发现位置的下游 AI 工具至关重要。

Anatomy‑aware two‑stage pipeline – 首先检测并提取特定胸部结构的特征，然后将这些表征输入语言模型以完成下游任务。
Unified multitask framework – 使用单一模型支持短语定位、报告生成、视觉问答（VQA）以及图像理解。
State‑of‑the‑art grounding performance – 相较于之前的多模态医学大语言模型，在解剖定位、短语定位、定位诊断和定位字幕基准上实现了超过 25 % 的相对提升。
Open‑source release – 代码和预训练权重已公开，促进了可重复性和社区的快速采用。

解剖结构识别
- 一个专用的视觉编码器（例如 CNN 或 ViT）处理胸部 X 光，并为关键解剖部位（肺、心脏、肋骨、纵隔等）生成区域提议。
- 一个轻量级分类器对这些提议进行细化，生成一组 解剖标记，每个标记都配有视觉嵌入。
特征提取与融合
- 将视觉嵌入投射到与语言模型的标记嵌入相同的潜在空间。
- 跨模态注意力层使得大型语言模型在生成文本或回答问题时能够有选择地关注解剖标记。
任务头部
- 短语定位：将医学短语（例如 “右下叶浑浊”）与相应的解剖标记对齐。
- 报告生成：基于有序的解剖标记对语言模型进行条件化，以生成结构化的放射学报告。
- VQA / 图像理解：通过关注相关的解剖区域来解释自然语言查询，然后给出答案。

整个系统在多个公开的胸部 X 光数据集（例如 MIMIC‑CXR、CheXpert）的混合上进行端到端训练，监督包括视觉定位和语言生成两方面。

这些数据表明，AnatomiX 不仅能够预测正确的发现，还能准确定位它们——这是实现放射学可信 AI 的关键一步。

数据集偏差：训练严重依赖公开的胸部 X‑ray 数据集，这可能导致对罕见病理或儿科病例的代表性不足。
分辨率限制：视觉编码器在下采样图像（≈224×224）上运行，可能遗漏细粒度的细节，例如微妙的间质模式。
对其他模态的泛化：虽然该流水线针对胸部 X‑ray 设计，但将其扩展到 CT、MRI 或超声需要新的解剖标记定义，并可能需要更大的视觉骨干网络。
未来方向：作者计划 (1) 引入更高分辨率的特征图，(2) 探索自监督的解剖发现以降低对标注掩码的依赖，以及 (3) 在前瞻性临床工作流中评估模型，以衡量实际影响。