[Paper] Position: 机制可解释性必须披露识别假设以进行因果主张

发布: 3天前 (2026年5月9日 GMT+8 01:01)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.08012v1

Overview

论文 Position: Mechanistic Interpretability Must Disclose Identification Assumptions for Causal Claims 批评了机械可解释性研究中日益增长的趋势：作者经常使用因果语言（例如 “circuits”“mediators”“causal abstraction”）来框定他们的发现，却没有阐明使这些因果主张成立的隐藏假设。通过审查最近的十篇论文，作者展示了社区缺乏系统化的陈述识别假设的实践，并提出了一项具体的披露规范来解决这一问题。

关键贡献

Systematic audit 对10篇机械可解释性论文进行审计，覆盖四种方法学家族，揭示始终缺乏专门的识别假设章节。
Empirical replication 使用两名编码员、30篇论文的样本，确认原始审计的发现（结果对编码规则具有鲁棒性）。
Critical analysis 对验证指标（faithfulness、completeness、monosemanticity、alignment、ablation effects）如何被错误地呈现为因果性证明进行批判性分析。
Norm proposal：为作者提供简明清单，以披露因果主张、基础识别策略、所有必要假设以及假设违背的影响。
Clarification 表明“validation ≠ identification”，并呼吁社区将其视为因果推断中的不同步骤。

方法论

Paper selection – 作者挑选了十篇有影响力的 mechanistic‑interpretability 研究，代表四种常见方法（circuit analysis、mediator discovery、causal abstraction 和 monosemantic probing）。
Coding scheme – 两位独立的人类编码员对每篇论文进行检查，关注以下方面：
- 是否包含专门的 “identification assumptions” 部分。
- 验证指标是否被用作独立的因果证据。
- 是否明确声明因果意图。
Replication audit – 为了检验稳健性，使用相同的编码规则对另外 30 篇通过关键词搜索选出的论文进行第二轮审计。通过讨论解决分歧，并报告了编码员间的一致性。
Synthesis – 将两次审计的发现进行汇总，并将模式提炼为一个建议的披露规范。

结果与发现

零篇论文 在原始十篇论文集中没有单独的章节列出识别假设。
验证度量替代 在 8/10 篇论文中被观察到：作者引用高忠实度或消融分数作为“因果证据”，却没有说明这些度量为何能识别底层机制。
复制审计（30 篇论文）显示相同趋势（≈ 85 % 的论文省略了明确的假设），确认该问题是普遍存在的，而非初始样本的偶然现象。
编码员间可靠性较高（Cohen’s κ ≈ 0.78），表明编码方案可靠地捕捉了该现象。
作者的 披露规范（声明 → 策略 → 假设 → 压力 + 反事实）被证明简洁（≈ 3‑4 句），但足以使因果推理透明。

实际意义

对于构建可解释性工具的开发者 – 了解“因果”声明背后的确切假设，有助于判断工具的输出是否可信，可用于调试、安全检查或模型编辑流水线。
对于 AI 产品团队 – 该规范提供了内部审查流程的检查清单，确保向利益相关者（如监管机构、客户）展示的任何因果解释都有明确的识别论证作为支撑。
对于开源库 – 实现者可以将底层假设以元数据形式公开（例如 explanation.causal_assumptions = [...]），使下游使用更加负责任。
对于研究可重复性 – 明确披露假设简化了复现工作：其他团队可以测试假设被违反时的情况，从而推动更稳健、可推广的可解释性方法。
对于政策与合规 – 当可解释性声明用于审计或合规报告时，所提出的规范提供了一种可辩护的方式，将“观察验证”与“因果推断”区分开来，降低法律风险。

限制与未来工作

审计范围 – 本研究聚焦于已使用因果术语的论文；可能遗漏因果语言隐含的更微妙情形。
编码粒度 – 虽然两位编码员达成了良好的一致性，但仅以二元的有无假设章节来判断，可能忽视文本其他位置嵌入的细微讨论。
规范采纳 – 论文提出了披露清单，但未对其采纳情况或对后续研究质量的影响进行实证测试。未来的工作可以开展纵向研究，追踪期刊或会议是否采用该规范以及其对引用实践的改变。
工具支持 – 开发自动化的 lint 或稿件检查工具，以标记缺失的识别假设，可帮助将该规范付诸实践；这仍是一个未解决的工程挑战。

作者

Zezheng Lin
Fengming Liu

论文信息

arXiv ID: 2605.08012v1
分类: cs.LG, cs.AI, cs.CL
发布时间: 2026年5月8日
PDF: 下载 PDF

[Paper] Position: 机制可解释性必须披露识别假设以进行因果主张

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 记忆诅咒：扩展回忆如何侵蚀 LLM Agents 的合作意图

[Paper] CA‑SQL：复杂度感知推理时间推理用于 Text-to‑SQL 的探索与计算预算分配

[Paper] 快速 Byte 潜在 Transformer

[Paper] Tool Calling 在语言模型中是线性可读且可引导的