[Paper] MHub.ai：简洁、标准化且可复现的医学影像AI模型平台

发布: 3周前 (2026年1月15日 GMT+8 15:53)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.10154v1

概览

MHub.ai 是一个开源的、基于容器的平台，将医学影像的 AI 模型打包成单一、可复现的接口。通过将经过同行评审的模型封装在能够理解 DICOM 等临床格式的标准化 Docker 容器中，作者旨在消除目前阻碍快速原型开发、基准测试和临床转化的 “model‑integration hell”。

标准化的容器格式用于 AI 模型，包含：
- 统一的命令行/API 入口点
- 内置 DICOM 输入和输出处理
- 结构化元数据（模型来源、许可、硬件需求）
参考数据包随每个模型一起提供，使用户能够验证容器开箱即用的正确运行。
开源的最先进模型库（分割、预测、特征提取），覆盖多种成像模态（CT、MRI、PET 等）。
模块化框架，让开发者只需最少的代码改动即可接入任何 PyTorch/TensorFlow 模型。
透明的基准测试工作流，通过肺部分割模型的并排比较展示，提供公开发布的分割结果、指标和交互式仪表盘。
面向社区的贡献流水线（GitHub Actions、CI/CD），在模型加入中心前强制执行可重复性检查。

容器化 – 每个模型都打包在一个 Docker 镜像中，镜像包含运行时环境（Python、库、GPU 驱动）以及一个薄包装脚本，提供统一的 CLI（mhubl run <model> --input <dicom_dir> --output <out_dir>）。
元数据模式 – 一个 JSON‑LD 文件描述模型的架构、训练数据、评估指标以及所需硬件。该模式在 CI 过程中自动验证。
参考数据集 – 为每个模型捆绑一个小型、公开可用的 DICOM 数据集。拉取容器后，用户运行一次完整性检查命令，生成已知输出，以确认容器行为符合预期。
基准测试流水线 – 作者构建了可复现的评估脚本，拉取多个容器，在同一测试队列上运行，并汇总 Dice 分数、推理时间和内存使用情况。结果通过基于 Plotly 的仪表盘可视化。
可扩展性 – 通过提供 Dockerfile、元数据 JSON 和参考数据集来添加新模型。CI 流水线构建镜像，运行完整性检查，并将容器发布到 Docker Hub 和 MHub.ai 注册表。

可重复性 – 所有 7 种基线肺部分割模型在三台不同的主机（Linux、Windows、macOS）以及不同 GPU 配置上，对参考数据产生了完全相同的结果，证实容器化方法消除了环境漂移。
基准测试 – 在 200 例外部肺部 CT 队列上评估时，表现最佳的模型获得了平均 Dice 系数 0.93，而表现最差的为 0.84；推理时间在每个扫描 0.8 s 到 3.2 s 之间波动，展示了并排比较的价值。
开发者开销 – 使用 MHub.ai 模板后，集成新模型的时间从平均 3–5 天（自定义脚本、依赖地狱）降至 不足 2 小时。
社区采纳 – 发布的第一个月内，已有 12 个外部研究团队 fork 了该仓库并贡献了 4 个额外模型，体现了低门槛的优势。

快速原型 – 数据科学家可以拉取模型，在本地 PACS 数据上运行，并在无需编写任何预处理代码的情况下获得结果。
一致的基准测试 – 开发 AI‑辅助放射学工具的公司可以针对相同的参考实现进行基准测试，使性能声明更具可信度。
合规友好 – 嵌入的元数据和参考数据提供了审计追踪，符合 FDA “作为医疗器械的软件” 文档要求。
可扩展部署 – 由于每个模型都运行在独立的容器中，Kubernetes 或 AWS Batch 等编排工具可以按需启动多个推理工作者，简化云原生部署流水线。
教育与培训 – 医学影像课程可以使用 MHub.ai，让学生在无需处理复杂环境配置的情况下实验前沿模型。

MHub.ai 为医学影像 AI 模型的共享、评估和部署设定了新基准——将当前零散脚本的“狂野西部”转变为可复现、开发者友好的生态系统。