[Paper] Position: 机制可解释性必须披露识别假设以进行因果主张

发布: (2026年5月9日 GMT+8 01:01)
7 分钟阅读
原文: arXiv

Source: arXiv - 2605.08012v1

Overview

论文 Position: Mechanistic Interpretability Must Disclose Identification Assumptions for Causal Claims 批评了机械可解释性研究中日益增长的趋势:作者经常使用因果语言(例如 “circuits”“mediators”“causal abstraction”)来框定他们的发现,却没有阐明使这些因果主张成立的隐藏假设。通过审查最近的十篇论文,作者展示了社区缺乏系统化的陈述识别假设的实践,并提出了一项具体的披露规范来解决这一问题。

关键贡献

  • Systematic audit 对10篇机械可解释性论文进行审计,覆盖四种方法学家族,揭示始终缺乏专门的识别假设章节。
  • Empirical replication 使用两名编码员、30篇论文的样本,确认原始审计的发现(结果对编码规则具有鲁棒性)。
  • Critical analysis 对验证指标(faithfulness、completeness、monosemanticity、alignment、ablation effects)如何被错误地呈现为因果性证明进行批判性分析。
  • Norm proposal:为作者提供简明清单,以披露因果主张、基础识别策略、所有必要假设以及假设违背的影响。
  • Clarification 表明“validation ≠ identification”,并呼吁社区将其视为因果推断中的不同步骤。

方法论

  1. Paper selection – 作者挑选了十篇有影响力的 mechanistic‑interpretability 研究,代表四种常见方法(circuit analysis、mediator discovery、causal abstraction 和 monosemantic probing)。
  2. Coding scheme – 两位独立的人类编码员对每篇论文进行检查,关注以下方面:
    • 是否包含专门的 “identification assumptions” 部分。
    • 验证指标是否被用作独立的因果证据。
    • 是否明确声明因果意图。
  3. Replication audit – 为了检验稳健性,使用相同的编码规则对另外 30 篇通过关键词搜索选出的论文进行第二轮审计。通过讨论解决分歧,并报告了编码员间的一致性。
  4. Synthesis – 将两次审计的发现进行汇总,并将模式提炼为一个建议的披露规范。

结果与发现

  • 零篇论文 在原始十篇论文集中没有单独的章节列出识别假设。
  • 验证度量替代 在 8/10 篇论文中被观察到:作者引用高忠实度或消融分数作为“因果证据”,却没有说明这些度量为何能识别底层机制。
  • 复制审计(30 篇论文)显示相同趋势(≈ 85 % 的论文省略了明确的假设),确认该问题是普遍存在的,而非初始样本的偶然现象。
  • 编码员间可靠性较高(Cohen’s κ ≈ 0.78),表明编码方案可靠地捕捉了该现象。
  • 作者的 披露规范(声明 → 策略 → 假设 → 压力 + 反事实)被证明简洁(≈ 3‑4 句),但足以使因果推理透明。

实际意义

  • 对于构建可解释性工具的开发者 – 了解“因果”声明背后的确切假设,有助于判断工具的输出是否可信,可用于调试、安全检查或模型编辑流水线。
  • 对于 AI 产品团队 – 该规范提供了内部审查流程的检查清单,确保向利益相关者(如监管机构、客户)展示的任何因果解释都有明确的识别论证作为支撑。
  • 对于开源库 – 实现者可以将底层假设以元数据形式公开(例如 explanation.causal_assumptions = [...]),使下游使用更加负责任。
  • 对于研究可重复性 – 明确披露假设简化了复现工作:其他团队可以测试假设被违反时的情况,从而推动更稳健、可推广的可解释性方法。
  • 对于政策与合规 – 当可解释性声明用于审计或合规报告时,所提出的规范提供了一种可辩护的方式,将“观察验证”与“因果推断”区分开来,降低法律风险。

限制与未来工作

  • 审计范围 – 本研究聚焦于已使用因果术语的论文;可能遗漏因果语言隐含的更微妙情形。
  • 编码粒度 – 虽然两位编码员达成了良好的一致性,但仅以二元的有无假设章节来判断,可能忽视文本其他位置嵌入的细微讨论。
  • 规范采纳 – 论文提出了披露清单,但未对其采纳情况或对后续研究质量的影响进行实证测试。未来的工作可以开展纵向研究,追踪期刊或会议是否采用该规范以及其对引用实践的改变。
  • 工具支持 – 开发自动化的 lint 或稿件检查工具,以标记缺失的识别假设,可帮助将该规范付诸实践;这仍是一个未解决的工程挑战。

作者

  • Zezheng Lin
  • Fengming Liu

论文信息

  • arXiv ID: 2605.08012v1
  • 分类: cs.LG, cs.AI, cs.CL
  • 发布时间: 2026年5月8日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »