[Paper] DentalGPT: 激励牙科中的多模态复杂推理

发布: 1个月前 (2025年12月12日 GMT+8 21:42)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.11558v1

概览

DentalGPT 是一种面向牙科的多模态大语言模型（MLLM），能够“看”牙科图像并像专家一样进行推理。通过在最大公开的牙科图像‑文本数据集（约 12 万对样本）上训练，并使用强化学习进行微调，7 B 参数的模型在牙科诊断和视觉问答任务上达到了或超过了更大规模通用 MLLM 的表现。

主要贡献

最大规模牙科多模态数据集 – 12 万张口内和全景图像，配有详细、聚焦诊断的说明，作为社区基准公开。
两阶段适配流水线 – (1) 在牙科语料上进行监督微调以注入视觉知识，随后 (2) 通过人类标注的推理轨迹进行强化学习，提升复杂的多模态推理能力。
体积小而强大 – 7 B 参数的 Transformer 在牙科 VQA 与疾病分类基准上超越了许多 30 B+ 参数的通用 MLLM。
完整评估套件 – 新的口内和全景测试集以及现有医学 VQA 基准的牙科子集，提供分类准确率、答案正确率和推理忠实度等指标。
开源发布 – 模型权重、数据和训练脚本公开，以加速口腔健康 AI 的研究和产品开发。

方法论

数据收集与整理
- 汇聚来自牙科诊所、开源放射学档案和教学资源的图像。
- 每张图像配有明确标出视觉线索的说明（例如 “在 #30 牙的远中根部出现放射透光性病灶”）以及简短的诊断依据。
- 质量控制由牙科专家随机抽查 5 % 的图像‑说明对，确保正确性和完整性。
监督微调
- 基于预训练的视觉‑语言骨干网络（ViT‑Q‑former + LLaMA‑2‑7B）。
- 使用标准交叉熵损失在牙科语料上训练，使图像嵌入与详细说明对齐。
基于人类反馈的强化学习 (RLHF)
- 收集专家在 VQA 提示下的“推理轨迹”，逐步回答（例如 “识别病灶 → 与已知模式比较 → 选择诊断”）。
- 采用近端策略优化（PPO），奖励与专家轨迹匹配的模型输出，鼓励跨模态的链式思考。
推理流程
- 运行时，模型接收图像和自由形式的问题。
- 视觉编码器提取密集表示，语言解码器在生成分步答案时关注该表示，可选输出置信度分数。

结果与发现

基准	指标	DentalGPT (7 B)	最佳通用 MLLM (≈30 B)	人类专家平均
口内疾病分类	准确率	92.3 %	86.7 %	94.1 %
全景 VQA（牙科子集）	完全匹配	78.5 %	71.2 %	81.0 %
医学 VQA 牙科子集	F1（答案）	81.9	74.5	84.3
推理一致性（链式思考）	BLEU‑4	45.2	33.8	48.0

参数效率：尽管模型约为竞争模型的 1/4 大小，DentalGPT 已弥补 >80 % 的性能差距。
细粒度视觉理解：消融实验表明，详细说明相较于通用说明数据，使对细微病变（如早期龋齿、根尖放射透光）检测提升 >10 %（相对）。
推理提升：RLHF 在 VQA 任务上带来约 6–8 % 的绝对增益，证实分步监督对牙科诊断至关重要。

实际意义

临床决策支持：牙科诊所可将 DentalGPT 嵌入影像软件，提供即时的鉴别诊断、分诊建议或面向患者的解释。
远程牙科平台：对上传的口内照片进行自动预筛选，标记紧急病例，缩短远程会诊的响应时间。
教育与培训：牙科院校可将模型用作交互式导师，解释放射学发现并回答 “为什么” 类问题，辅助教师教学。
合规准备的流水线：模型体积小，可部署在边缘设备（如牙科椅旁工作站），相较于巨型黑箱模型更易审计。
数据中心 AI 工作流：本文展示了可复现的配方——收集高质量领域数据 → 监督微调 → RLHF——可复制到其他专科（皮肤科、眼科等）。

局限性与未来工作

数据集偏差：训练集主要来源于少数地区和设备类型，可能限制对欠代表人群的泛化能力。
可解释性：虽然链式思考输出提升透明度，但底层视觉编码器仍是黑箱；未来可加入注意力可视化或显著图。
监管验证：在真实患者护理中部署前，需要临床试验评估安全性和有效性。
多模态扩展：当前聚焦于静态图像，扩展到视频（如口内扫描）和 3‑D 锥束 CT 将提升适用范围。

DentalGPT 表明，经过精心策划的领域特定多模态数据集结合分阶段微调，可产出轻量且高性能的牙科 AI 助手，为医疗各领域的类似突破打开大门。

作者

蔡振阳
张佳明
赵俊杰
曾子怡
李延超
梁静怡
陈俊英
杨云锦
游佳俊
邓树之
王同飞
陈望婷
郝春秀
谢瑞琪
文振伟
冯向义
邹走
林金邹
李建全
于光俊
陈良毅
王俊文
姜珊
王本友

论文信息

arXiv ID: 2512.11558v1
分类: cs.CV, cs.AI, cs.CL
发布时间: 2025 年 12 月 12 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 我们准备好在文本到3D生成中使用RL了吗？一次渐进式调查

Reinforcement learning (RL)，此前已被证明在大型语言模型和多模态模型中有效，已成功扩展用于提升二维图像生成……

[Paper] 更强的无归一化Transformer

尽管归一化层长期被视为深度学习架构中不可或缺的组成部分，最近引入的 Dynamic Tanh (DyT) 已经……

[Paper] MedForget：层次感知多模态遗忘测试平台用于医学 AI

预训练的多模态大型语言模型（MLLMs）正日益被部署在医学 AI 系统中，用于临床推理、诊断支持和报告生成……

[Paper] Particulate: 前馈 3D 对象关节化

我们提出了 Particulate，这是一种前馈方法，给定单个静态的日常物体 3D 网格，直接推断出其底层结构的所有属性。