提升 AI 模型解释其预测的能力

发布: 1天前 (2026年3月9日 GMT+8 12:00)

9 分钟阅读

原文: MIT News - AI

Source: MIT News - AI

请提供您希望翻译的正文内容，我将为您翻译成简体中文并保持原有的格式。

高风险医学诊断中的可解释性

在像医学诊断这样的高风险场景中，用户常常想了解 是什么导致计算机视觉模型做出某个预测，以便判断是否信任其输出。

概念瓶颈建模是一种能够让人工智能系统解释其决策过程的方法。这些方法强制深度学习模型使用一组人类可理解的概念来进行预测。在最新研究中，MIT 计算机科学家开发了一种方法， 诱导模型实现更高的准确率和更清晰、更简洁的解释。

模型使用的概念通常由人类专家提前定义。例如，临床医生可以提出概念如 “聚集的棕色斑点” 和 “斑驳的色素沉着” 来预测医学图像是否为黑色素瘤。

先前定义的概念可能与特定任务无关或细节不足，从而降低模型的准确性。新方法 在模型已经为特定任务进行训练时提取其已学习的概念，并强制模型使用这些概念，提供比标准概念瓶颈模型更好的解释。

该方法利用一对专门的机器学习模型，自动从目标模型中提取知识并将其转化为通俗语言的概念。最终，他们的技术可以将任何预训练的计算机视觉模型转换为能够使用概念解释其推理的模型。

“从某种意义上说，我们希望能够读取这些计算机视觉模型的‘思维’。概念瓶颈模型是一种让用户了解模型在想什么以及为何做出某个预测的方式。因为我们的方法使用了更好的概念，它可以提升准确率，并最终改善黑箱 AI 模型的问责性，” 领衔作者 Antonio De Santis 说，他是米兰理工大学的研究生，在 MIT 计算机科学与人工智能实验室（CSAIL）作为访问研究生完成了这项研究。

他在一篇关于该工作的论文中与 Schrasing Tong SM ’20, PhD ’26、Marco Brambilla（米兰理工大学计算机科学与工程教授）以及资深作者 Lalana Kagal（CSAIL 的首席研究科学家）共同署名。该研究将在国际学习表征会议（International Conference on Learning Representations）上进行展示。

构建更好的瓶颈

概念瓶颈模型（CBMs）是提升 AI 可解释性的流行方法。这些技术通过强制计算机视觉模型 预测图像中存在的概念，然后使用这些概念进行最终预测，从而添加一个中间步骤。这个中间步骤，或称瓶颈，帮助用户理解模型的推理过程。

示例：一个识别鸟类的模型可以在预测燕子之前选择 “黄色的腿” 和 “蓝色的翅膀” 等概念。

由于这些概念通常由人类或大型语言模型（LLMs）提前生成，它们可能不适合特定任务。此外，即使给定一组预定义概念，模型有时仍会利用不希望出现的学习信息——这被称为 信息泄漏。

“这些模型的训练目标是最大化性能，所以模型可能会暗中使用我们未察觉的概念，” De Santis 解释道。

MIT 的想法

研究人员推断，由于模型已经在海量数据上进行过训练，它可能已经学会了完成当前任务所需的概念。他们着手构建一个 CBM，提取已有的知识并将其转化为人类可理解的文本。

稀疏自编码器 – 一种专门的深度学习模型，选择模型学到的最相关特征，并将其重构为少量概念。
多模态 LLM – 用通俗语言描述每个概念，并通过识别每张图像中概念的有无，对数据集中的图像进行标注。

随后，研究人员使用该标注数据集 训练概念瓶颈模块，使其能够识别这些概念。他们将此模块嵌入目标模型，强制模型仅使用研究人员提取的学习概念进行预测。

控制概念

开发该方法需要克服许多挑战，包括确保大型语言模型（LLM）正确标注概念，以及判断稀疏自编码器是否识别出了人类可理解的概念。

为了防止模型使用未知或不希望出现的概念，他们 限制每次预测只能使用五个概念。这也迫使模型选择最相关的概念，使解释更易于理解。

在将他们的方法与最先进的概念瓶颈模型（CBM）在预测鸟类物种和识别医学图像中皮肤病变等任务上进行比较时，他们的方法 在提供更精确解释的同时实现了最高的准确率。他们的方案还生成了更适用于数据集图像的概念。

“我们已经证明，从原始模型中提取概念可以优于其他 CBM，但仍然存在需要解决的可解释性与准确性之间的权衡。不可解释的黑箱模型仍然比我们的表现更好，” De Santis 说。

未来方向

信息泄漏 – 团队计划研究潜在的解决方案，或许通过添加额外的概念瓶颈模块，使不希望出现的概念无法泄漏。
规模扩展 – 他们的目标是使用更大的多模态 LLM 来标注更大的训练数据集，从而提升性能。

“我对这项工作感到兴奋，因为它将可解释 AI 推向了一个非常有前景的方向，并为符号 AI 与知识图谱之间搭建了自然的桥梁，” And 说。

维尔茨堡大学数据科学讲座的教授兼负责人 Reas Hotho（未参与本工作）表示：
“通过从模型自身的内部机制而非仅仅从人为定义的概念中推导概念瓶颈，这为提供更忠实于模型的解释开辟了道路，并为后续基于结构化知识的工作提供了诸多机会。”

资助与致谢

本研究得到了以下机构的支持：

Progetto Rocca 博士奖学金，
意大利大学与研究部（在国家复苏与韧性计划下），
泰雷兹阿莱尼亚空间公司，
欧盟（在 NextGenerationEU 项目下）。

提升 AI 模型解释其预测的能力

高风险医学诊断中的可解释性

构建更好的瓶颈

MIT 的想法

控制概念

未来方向

资助与致谢

相关文章

Attention Is All You Need — 完整论文解析

FAQ: Agentic AI 安全威胁 — 您的热门问题解答

代理范围蔓延问题：为什么无限增长的 AI 代理会变得不可靠

避免的三个 OpenClaw 错误以及如何修复它们