[Paper] Explaining Attention with Program Synthesis
개요
인터프리터블 딥러닝 연구의 오랫동안 목표는 투명한 신경 연산을 의미 있는 상징적 설명으로 대체하는 것이다. 본 논문에서는 실행 가능한 프로그램을 사용해 딥 네트워크 구성 요소의 행동을 근사하는 방법을 제시한다. 특히 트랜스포머 언어 모델의 주의 헤드에 초점을 맞춘다. 주어진 헤드에 대해 먼저 무작위로 선택된 훈련 예시 모음에서 해당 헤드의 연관 행렬을 계산한다. 그다음, 이러한 행렬들의 요약을 사용해 사전 훈련된 언어 모델에 프롬프트를 보내고, 입력 문장의 텍스트만으로 해당 주의 패턴을 재현할 수 있는 파이썬 프로그램 집합을 생성하도록 지시한다. 마지막으로, 최종 프로그램 집합이 보유된 입력에 대한 행동을 얼마나 잘 예측하는지에 따라 프로그램을 재랭킹한다. 우리는 생성된 프로그램 수가 1,000개 미만인 집합이 GPT-2, TinyLlama-1.1B, Llama-3B의 헤드 주의 패턴을 재현할 수 있음을 보여준다. TinyStories에서 평균 Intersection-over-Union 유사도가 75%를 초과한다. 또한 최적 적합 프로그램은 신경 주의 헤드를 교체해도 모델 행동을 크게 영향을 주지 않으며, 세 모델에서 25%의 주의 헤드를 프로그램 대체 surrogate로 교체하면 평균 퍼플렉시티가 16% 증가하는 수준에 그치며, 다양한 하위 질문 답변 벤치마크에서 성능을 유지한다. 본 연구는 트랜스포머 모델의注意 헤드를 인간 읽기 가능한 실행 가능한 코드로 역설학적으로 재구성하는 스케일러 파이프라인을 제공하여 신경 모델의 상징적 투명성을 향상시키는 경로를 제시한다.
주요 공헌
- cs.LG
- cs.AI
방법론
자세한 방법은 전체 논문을 참고하십시오.
실용적 의미
이 연구는 cs.LG의 발전을 기여한다.
저자들
- Amiri Hayes
- Belinda Li
- Jacob Andreas
논문 정보
- arXiv ID: 2606.19317v1
- 카테고리: cs.LG, cs.AI
- 발행일: 2026년 6월 17일
- PDF: Download PDF