[Paper] Position: Mechanistic Interpretability은 Causal Claims를 위한 Identification Assumptions를 공개해야 한다

발행: (2026년 5월 9일 AM 02:01 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2605.08012v1

Source:

개요

논문 Position: Mechanistic Interpretability Must Disclose Identification Assumptions for Causal Claims 은 mechanistic interpretability 연구에서 점점 늘어나고 있는 추세를 비판한다. 연구자들은 자신의 발견을 인과적 언어(예: “circuits”, “mediators”, “causal abstraction”)로 자주 표현하지만, 그러한 인과적 주장이 타당하게 되기 위해 필요한 숨겨진 가정들을 명시하지 않는다. 최근 10편의 논문을 감사(audit)함으로써, 저자들은 커뮤니티가 식별 가정(identification assumptions)을 명시하는 체계적인 관행이 부족함을 보여주고, 이 문제를 해결하기 위한 구체적인 공개 규범(disclosure norm)을 제안한다.

주요 기여

  • Systematic audit: 10개의 mechanistic‑interpretability 논문을 네 가지 방법론적 패밀리에서 체계적으로 감사하여, 전용 identification‑assumption 섹션이 일관되게 누락되어 있음을 밝혀냄.
  • Empirical replication: 두 명의 코더가 30편의 논문 샘플을 대상으로 수행한 실증적 복제 연구로, 원래 감사 결과를 확인함(결과는 코딩 규칙에 대해 강건함).
  • Critical analysis: 검증 메트릭(faithfulness, completeness, monosemanticity, alignment, ablation effects)이 인과성을 증명하는 것으로 잘못 제시되는 방식을 비판적으로 분석함.
  • Norm proposal: 저자들이 인과 주장, 근본적인 identification 전략, 모든 필요 가정, 가정 위반의 영향을 공개하도록 하는 간결한 체크리스트 제안.
  • Clarification: “validation ≠ identification”임을 명확히 하며, 커뮤니티가 인과 추론에서 이를 별개의 단계로 다루도록 촉구함.

방법론

  1. 논문 선택 – 저자들은 회로 분석, 매개자 발견, 인과 추상화, 단일 의미 탐색이라는 네 가지 일반적인 접근 방식을 대표하는 영향력 있는 메커니즘‑해석 연구 10편을 선정했습니다.

  2. 코딩 체계 – 두 명의 독립적인 인간 코더가 각 논문을 다음 항목에 대해 검토했습니다:

    • 전용 “식별 가정” 섹션의 존재 여부.
    • 검증 메트릭이 독립적인 인과 증거로 사용되었는지 여부.
    • 인과 의도의 명시적 진술.
  3. 복제 감사 – 견고성을 테스트하기 위해 동일한 코딩 규칙을 사용하여 키워드 검색으로 선정된 추가 논문 30편에 대한 두 번째 감사를 수행했습니다. 불일치는 토론을 통해 해결되었으며, 코더 간 일치도가 보고되었습니다.

  4. 통합 – 두 감사의 결과를 종합하고, 패턴을 추출하여 제안된 공개 규범으로 정리했습니다.

결과 및 발견

  • Zero papers 원래 10편 집합에서 식별 가정을 나열한 별도 섹션을 포함한 논문은 없었다.
  • Validation‑metric substitution이 10편 중 8편에서 관찰되었다: 저자들은 높은 충실도 또는 절제 점수를 “인과성의 증거”로 인용했지만, 해당 메트릭이 근본 메커니즘을 식별하는 이유를 정당화하지 않았다.
  • 복제 감사(30편)에서도 동일한 경향이 나타났으며(≈ 85 %의 논문이 명시적 가정을 누락), 이 문제가 초기 샘플의 특수 현상이 아니라 널리 퍼져 있음을 확인했다.
  • 코더 간 신뢰도는 높았으며(Cohen’s κ ≈ 0.78), 코딩 체계가 현상을 신뢰성 있게 포착했음을 나타낸다.
  • 저자들의 disclosure norm(주장 → 전략 → 가정 → 스트레스 + 반사실)은 간결(≈ 3‑4문장)하면서도 인과 추론을 투명하게 만들기에 충분함이 입증되었다.

Practical Implications

  • For developers building interpretability tools – “인과” 주장 뒤에 있는 정확한 가정을 알면 도구의 출력이 디버깅, 안전 검사, 또는 모델 편집 파이프라인에 신뢰할 수 있는지 판단할 수 있습니다.
  • For AI product teams – 이 규범은 내부 검토 프로세스를 위한 체크리스트를 제공하여 이해관계자(예: 규제기관, 고객)에게 제시되는 모든 인과 설명이 명확한 식별 논거에 의해 뒷받침되도록 합니다.
  • For open‑source libraries – 구현자는 기본 가정을 메타데이터(예: explanation.causal_assumptions = [...])로 노출할 수 있어 하위 사용이 보다 책임감 있게 이루어집니다.
  • For research reproducibility – 명시적인 가정 공개는 복제를 간소화합니다: 다른 팀은 가정이 위배될 때 어떤 일이 일어나는지 테스트할 수 있어 보다 견고하고 일반화 가능한 해석 가능성 방법을 만들 수 있습니다.
  • For policy and compliance – 해석 가능성 주장이 감사나 컴플라이언스 보고서에 사용될 때, 제안된 규범은 “관찰적 검증”과 “인과 추론”을 구분하는 방어 가능한 방법을 제공하여 법적 위험을 감소시킵니다.

제한 사항 및 향후 연구

  • 감사 범위 – 이 연구는 이미 인과 용어를 사용하는 논문에 초점을 맞추었으며, 인과 언어가 암시된 미묘한 경우를 놓칠 수 있습니다.
  • 코딩 세분성 – 두 명의 코더가 좋은 일치도를 보였지만, 가정 섹션의 이진 존재/부재만으로는 텍스트 다른 곳에 포함된 미묘한 논의를 간과할 수 있습니다.
  • 규범 채택 – 논문은 공개 체크리스트를 제안하지만, 그 채택 여부나 이후 연구 품질에 미치는 영향을 실증적으로 테스트하지 않았습니다. 향후 연구에서는 학술지나 학회가 이 규범을 채택했는지, 인용 관행이 어떻게 변하는지를 추적하는 장기 연구가 포함될 수 있습니다.
  • 도구 지원 – 누락된 식별 가정을 표시하는 자동 린팅 또는 원고 검사 도구를 개발하면 규범을 실현하는 데 도움이 되지만, 이는 아직 해결되지 않은 엔지니어링 과제입니다.

저자

  • Zezheng Lin
  • Fengming Liu

논문 정보

  • arXiv ID: 2605.08012v1
  • Categories: cs.LG, cs.AI, cs.CL
  • Published: 2026년 5월 8일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 빠른 Byte Latent Transformer

최근 바이트 수준 언어 모델(LM)은 서브워드 어휘에 의존하지 않으면서 토큰 수준 모델의 성능과 일치하지만, 그 유용성은 slo...