[Paper] 高效发现近似因果抽象 via Neural Mechanism Sparsification
发布: (2026年2月28日 GMT+8 02:35)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.24266v1
概述
本文提出了一种新方法,用于在已训练的神经网络中发现隐藏的高层因果解释,无需昂贵的重新训练或大量的干预实验。通过将剪枝视为对近似因果抽象的搜索,作者推导出一种原则性、快速的方法,能够从任意确定性网络中提取稀疏且对干预忠实的结构因果模型(SCM)。
关键贡献
- 将抽象发现重新构架为结构化剪枝问题,将模型压缩与因果分析联系起来。
- 推导出 干预风险(Interventional Risk)目标,用于量化剪枝网络在多大程度上保留干预的效果。
- 闭式 二阶展开,提供了 (a) 将单元固定为常数 和 (b) 将单元合并到其邻居 的简单准则。
- 证明在均匀曲率下,得分简化为 激活方差,为基于方差的剪枝提供理论依据(以及局限性)。
- 高效算法,从预训练模型中提取稀疏、干预忠实的抽象,并通过交叉干预实验进行验证。
Source: …
方法论
- 将训练好的网络视为确定性因果结构模型(SCM)——每个神经元是一个变量,前向传播定义了函数关系。
- 定义干预风险:在一次干预下,原始网络输出与候选抽象模型在相同干预下输出之间的期望差异。
- 对该风险进行二阶泰勒展开,得到一个可处理的表达式,涉及网络函数的曲率(即二阶导数)。
- 剪枝决策:
- 常数替换:如果一个单元对风险的贡献(其激活方差与曲率的函数)较低,则可以将其设为固定值。
- 折叠:如果将一个单元合并到相邻单元后,整体风险仍保持在低水平,则可以进行合并。
- 统一曲率假设将评分简化为激活方差,从而与经典的基于幅度的剪枝方法相联系。
- 迭代搜索:反复应用上述准则生成稀疏抽象,当达到用户指定的风险预算时停止。
结果与发现
- 在标准视觉基准(例如 CIFAR‑10/100)上,该方法 将网络规模缩小 70‑90 %,同时保持 干预保真度在 95 % 以上(通过互换干预进行测量)。
- 与暴力搜索互换干预相比,所提出的方法实现了 数量级的加速(分钟级 vs. 小时级)。
- 当曲率不均匀时,仅基于方差的剪枝 无法 保持因果行为,而曲率感知评分能够维持保真度,验证了理论分析。
- 提取的抽象常常与 人类可解释的概念(例如边缘检测器、纹理滤波器)相吻合,表明该方法能够揭示有意义的因果机制。
实际影响
- Model debugging & safety: 开发者可以快速获取网络的因果图,以了解干预(例如特征掩码)如何影响预测,从而帮助进行故障的根因分析。
- Efficient deployment: 稀疏抽象可以作为资源受限环境下的轻量级代理进行推理,同时保证关键因果关系保持完整。
- Explainable AI tooling: 该算法可以集成到现有的机器学习流水线中,生成在反事实查询下仍然可信的事后解释,这超越了基于梯度的显著性方法。
- Transfer learning: 抽象的因果模块可以在不同任务之间复用,可能减少微调所需的数据和计算量。
限制与未来工作
- 当前理论假设 确定性网络;随机层(例如 dropout、贝叶斯网络)未被直接处理。
- 统一曲率 的简化可能不适用于高度非线性架构(例如 transformer),从而限制了仅基于方差的剪枝捷径。
- 实验聚焦于图像分类;将验证扩展到 自然语言处理或强化学习 领域仍有待探索。
- 未来研究可以探索 自适应曲率估计,加入 从数据中进行因果发现(而非使用给定网络),并研究为开发者提供查询和编辑提取抽象的 交互式工具。
作者
- Amir Asiaee
论文信息
- arXiv ID: 2602.24266v1
- 分类: cs.LG, cs.AI
- 出版时间: 2026年2月27日
- PDF: 下载 PDF