【论文】UniX：统一自回归与扩散用于胸部X光的理解与生成

发布: 3周前 (2026年1月17日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.11522v1

概述

本文介绍了 UniX，一种统一的基础模型，能够同时理解和生成胸部 X‑光图像。通过将关注语义的自回归 (AR) 分支与像素级扩散分支分离——随后通过跨模态自注意力让它们相互交流——UniX 在使用远少于现有大型医学模型的参数量的情况下，实现了业界领先的结果。

数据准备 – 作者抓取多个公开的胸部 X‑光数据集，运行一系列启发式方法（例如，重复检测、报告‑图像对齐检查），并策划出干净、平衡的语料库。
自回归 (AR) 分支 – 一个 Transformer 风格的编码器处理放射学报告，而解码器预测一系列视觉标记（例如，VQ‑GAN 代码）。该分支使用标准交叉熵损失进行训练，鼓励其捕获诊断语义。
扩散分支 – 潜在扩散模型 (LDM) 学习从噪声潜向量重建高分辨率 X‑光图像。扩散损失为常用的去噪得分匹配目标。
跨模态自注意力 – 在每个扩散时间步，潜在表示会关注 AR 隐状态。此动态条件化使生成器“倾听”理解分支，将像素细节与临床概念对齐。
训练计划
- 阶段 1：在报告‑图像对上预训练 AR。
- 阶段 2：冻结 AR，训练扩散模型于干净图像。
- 阶段 3：使用跨模态注意力进行联合微调，采用 AR 与扩散损失的加权和。

整个流水线使用 PyTorch 实现，可在单节点 8‑GPU（A100）上运行，得益于模块化设计。

任务	指标	UniX	先前最佳（特定任务）	与 LLM‑CXR 的 % Δ
理解（Micro‑F1）	0.842	0.842	0.577（仅 AR）	+46.1 %
生成（FD‑RadDino ↓）	0.112	0.112	0.148（仅 Diffusion）	+24.2 %
参数量	–	120 M	480 M（LLM‑CXR）	–

领域特定性 – UniX 仅在胸部 X 光片上进行训练；将该架构扩展到其他模态（CT、MRI）将需要特定模态的分词器和扩散先验。
跨模态注意力的可解释性 – 虽然注意力图似乎与临床术语对齐，但仍缺乏对其可靠性的系统性评估。
监管考量 – 合成医学图像可能导致无意的偏差或滥用；作者指出在临床部署前需要可靠的验证流程。
未来方向 建议包括 (1) 多模态条件（例如，添加患者元数据），(2) 在未标记的放射图像上进行自监督预训练，以及 (3) 与大型语言模型更紧密集成，以实现完整报告生成。