别再问模型是否可解释

发布: 3天前 (2026年2月27日 GMT+8 23:00)

10 分钟阅读

原文: Towards Data Science

Source: Towards Data Science

请提供您希望翻译的完整文本内容（除代码块和 URL 之外），我将为您翻译成简体中文并保持原有的 Markdown 格式。

AI 可解释性：提出正确的问题

研究人员、实践者，甚至监管者经常会问模型是否可解释。这种表述假设可解释性是模型要么拥有要么缺乏的属性——但事实并非如此。

模型本身并不是抽象意义上的可解释或不可解释。这里我们并不是在讨论线性回归或决策树等本质透明的模型——它们的推理过程可以直接检查。我们关注的是复杂模型，其决策过程并非立即可获取。

因此，可解释性并不是一个复选框、一个可视化或某个特定算法。它更像是一套方法，帮助人类分析模型以回答特定问题。改变问题，解释的有用性也随之改变。真正的问题是模型是否可解释并不重要，我们需要解释的目的才是关键。

当我们以这种方式看待可解释性时，一个更清晰的结构会浮现。实际上，解释始终承担着三种不同的科学功能：

诊断失败
验证学习
提取知识

即使这些功能可能使用相似的技术手段，它们在概念上也是不同的。理解这种区别有助于阐明何时需要可解释性以及我们实际需要何种解释。

可解释性作为诊断

第一种角色出现在模型开发阶段，此时模型仍是实验对象。此时它们不稳定、不完美，且常常以聚合指标无法揭示的方式出错。准确率告诉我们模型是否成功，但并未说明为何会失败。两个模型可以实现相同的性能，却依赖完全不同的决策规则——一个可能在学习真实结构，另一个可能在利用偶然的相关性。

可解释性方法让我们能够洞察模型的决策过程并识别隐藏的失效模式。从这个意义上，它们的作用类似于软件工程中的调试工具。没有这些方法，改进模型基本上是猜测；有了它们，我们可以对模型实际在做什么提出可检验的假设。

示例：手写数字分类

MNIST 数据集刻意设计得非常简单，因而非常适合检查模型的推理是否符合我们的预期。

在 MNIST 数据集上训练的 CNN 中发现的交互强度显著图。
Source: Towards Interaction Detection Using Topological Analysis on Neural Networks

当我们可视化哪些像素影响了预测时，能够立刻看出网络是关注数字笔画还是无关的背景区域。差异告诉我们模型是学习了有意义的信号还是走了捷径。在这种诊断角色中，解释不是面向终端用户或利益相关者的，而是供开发者用来理解模型行为的工具。

可解释性作为验证

一旦模型表现良好，关注点就会转变。我们不再主要关心 它为何会失败；相反，我们想知道 它是否因正确的原因而成功。

这种区分微妙却至关重要。一个系统即使达到高准确率，若依赖于偶然的相关性，仍可能在科学上具有误导性。例如，一个用于检测动物的分类器表面上看似完美运行，实则是依赖背景线索而非动物本身。从预测的角度看，模型似乎成功；但从科学的角度看，它学到了错误的概念。

可解释性让我们能够检查内部表征，验证它们是否符合领域预期。在深度神经网络中，中间层编码了学习到的特征，分析这些表征可以揭示系统是发现了有意义的结构，还是仅仅记住了表面的模式。

示例：ImageNet 分类

ImageNet 图像包含杂乱的场景、多样的上下文以及高类内变异性，因此成功的模型必须学习层次化的表征，而不是依赖浅层的视觉线索。

Grad‑CAM 可视化示例（ImageNet 样本）
Source: Grad‑CAM for image classification (PyTorch)

当我们可视化内部滤波器或激活图时，可以检查早期层是否检测到边缘，中间层是否捕获纹理，深层是否响应形状。这种结构的存在表明网络已经学到了关于数据的有意义信息；若缺乏此结构，则说明性能指标可能掩盖了概念上的失败。

在这种第二种角色中，可解释性不是调试一个损坏的模型，而是 验证一个成功的模型。

可解释性作为知识

当模型被应用于仅靠预测不足以满足需求的领域时，第三种角色出现。在这里，机器学习系统不仅用于产生输出，还用于生成洞见。可解释性成为发现的工具。

现代模型能够在远超人类手工分析能力的数据集上检测统计规律。当我们能够检查它们的推理过程时，它们可能揭示出能够提出新假设或先前未被注意到的关系的模式。在科学应用中，这一能力往往是可解释性研究最有价值的成果。

其价值甚至超过预测准确性本身。

医学影像示例

考虑一个经过训练用于从 CT 扫描中检测肺癌的神经网络。

Grad‑CAM heatmaps highlighting key regions contributing to lung cancer predictions.
Source: “Secure and interpretable lung‑cancer prediction model using MapReduce, private blockchain, federated learning and XAI” – Nature article

如果该模型预测出恶性肿瘤，临床医生需要了解 哪些区域影响了这一决定。

如果高亮区域对应肿瘤边界，解释与医学推理相符。
如果不对应，则无论预测多么准确，都无法被信任。
第三种可能性：解释可能揭示出临床医生此前未曾认为具有诊断意义的细微结构。在这种情况下，可解释性不仅仅是对预测的解释——它在贡献知识。

在这里，解释不仅是理解模型的工具；它们是 扩展人类认知 的工具。

一个概念，三种功能

这些例子说明，可解释性 不是单一目标，而是 多功能框架。同一种技术可以帮助：

调试模型
验证其推理
提取洞见

这取决于所提出的问题。关于可解释性的混淆常常源于讨论未能区分这些目标。

更有价值的问题是 模型是否可解释，而不是 它是否对我们关心的任务足够可解释。这一要求始终取决于上下文：开发、研究或部署。

从这个角度看，可解释性最好被理解为 不是对机器学习的约束，而是 人类与模型之间的接口。它使我们能够诊断、验证并学习。没有它，预测仍是不可见的输出；有了它，预测就成为科学分析的对象。

我们到底想让解释说明什么？

一旦这个问题明确，可解释性就不再是模糊的需求，而成为一种科学工具。

如果您有任何问题、想提供反馈，或只是想展示自己的项目，欢迎联系我。

别再问模型是否可解释

AI 可解释性：提出正确的问题

可解释性作为诊断

示例：手写数字分类

可解释性作为验证

示例：ImageNet 分类

可解释性作为知识

医学影像示例

一个概念，三种功能

相关文章

理解 LSTM – 第6部分：LSTM 如何产生其最终输出

当 AI 说谎时：自主系统中对齐欺骗的兴起

决策树——嵌套决策规则的惊人力量

构建用于10位加法的最小Transformer