[Paper] Position: 机制可解释性必须披露识别假设以进行因果主张
发布: (2026年5月9日 GMT+8 01:01)
7 分钟阅读
原文: arXiv
Source: arXiv - 2605.08012v1
Overview
论文 Position: Mechanistic Interpretability Must Disclose Identification Assumptions for Causal Claims 批评了机械可解释性研究中日益增长的趋势:作者经常使用因果语言(例如 “circuits”“mediators”“causal abstraction”)来框定他们的发现,却没有阐明使这些因果主张成立的隐藏假设。通过审查最近的十篇论文,作者展示了社区缺乏系统化的陈述识别假设的实践,并提出了一项具体的披露规范来解决这一问题。
关键贡献
- Systematic audit 对10篇机械可解释性论文进行审计,覆盖四种方法学家族,揭示始终缺乏专门的识别假设章节。
- Empirical replication 使用两名编码员、30篇论文的样本,确认原始审计的发现(结果对编码规则具有鲁棒性)。
- Critical analysis 对验证指标(faithfulness、completeness、monosemanticity、alignment、ablation effects)如何被错误地呈现为因果性证明进行批判性分析。
- Norm proposal:为作者提供简明清单,以披露因果主张、基础识别策略、所有必要假设以及假设违背的影响。
- Clarification 表明“validation ≠ identification”,并呼吁社区将其视为因果推断中的不同步骤。
方法论
- Paper selection – 作者挑选了十篇有影响力的 mechanistic‑interpretability 研究,代表四种常见方法(circuit analysis、mediator discovery、causal abstraction 和 monosemantic probing)。
- Coding scheme – 两位独立的人类编码员对每篇论文进行检查,关注以下方面:
- 是否包含专门的 “identification assumptions” 部分。
- 验证指标是否被用作独立的因果证据。
- 是否明确声明因果意图。
- Replication audit – 为了检验稳健性,使用相同的编码规则对另外 30 篇通过关键词搜索选出的论文进行第二轮审计。通过讨论解决分歧,并报告了编码员间的一致性。
- Synthesis – 将两次审计的发现进行汇总,并将模式提炼为一个建议的披露规范。
结果与发现
- 零篇论文 在原始十篇论文集中没有单独的章节列出识别假设。
- 验证度量替代 在 8/10 篇论文中被观察到:作者引用高忠实度或消融分数作为“因果证据”,却没有说明这些度量为何能识别底层机制。
- 复制审计(30 篇论文)显示相同趋势(≈ 85 % 的论文省略了明确的假设),确认该问题是普遍存在的,而非初始样本的偶然现象。
- 编码员间可靠性较高(Cohen’s κ ≈ 0.78),表明编码方案可靠地捕捉了该现象。
- 作者的 披露规范(声明 → 策略 → 假设 → 压力 + 反事实)被证明简洁(≈ 3‑4 句),但足以使因果推理透明。
实际意义
- 对于构建可解释性工具的开发者 – 了解“因果”声明背后的确切假设,有助于判断工具的输出是否可信,可用于调试、安全检查或模型编辑流水线。
- 对于 AI 产品团队 – 该规范提供了内部审查流程的检查清单,确保向利益相关者(如监管机构、客户)展示的任何因果解释都有明确的识别论证作为支撑。
- 对于开源库 – 实现者可以将底层假设以元数据形式公开(例如
explanation.causal_assumptions = [...]),使下游使用更加负责任。 - 对于研究可重复性 – 明确披露假设简化了复现工作:其他团队可以测试假设被违反时的情况,从而推动更稳健、可推广的可解释性方法。
- 对于政策与合规 – 当可解释性声明用于审计或合规报告时,所提出的规范提供了一种可辩护的方式,将“观察验证”与“因果推断”区分开来,降低法律风险。
限制与未来工作
- 审计范围 – 本研究聚焦于已使用因果术语的论文;可能遗漏因果语言隐含的更微妙情形。
- 编码粒度 – 虽然两位编码员达成了良好的一致性,但仅以二元的有无假设章节来判断,可能忽视文本其他位置嵌入的细微讨论。
- 规范采纳 – 论文提出了披露清单,但未对其采纳情况或对后续研究质量的影响进行实证测试。未来的工作可以开展纵向研究,追踪期刊或会议是否采用该规范以及其对引用实践的改变。
- 工具支持 – 开发自动化的 lint 或稿件检查工具,以标记缺失的识别假设,可帮助将该规范付诸实践;这仍是一个未解决的工程挑战。
作者
- Zezheng Lin
- Fengming Liu
论文信息
- arXiv ID: 2605.08012v1
- 分类: cs.LG, cs.AI, cs.CL
- 发布时间: 2026年5月8日
- PDF: 下载 PDF