[Paper] Attribution Graphs를 활용한 대형 언어 모델의 추론 설명

발행: 1개월 전 (2025년 12월 18일 오전 03:15 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2512.15663v1

위에 제공된 소스 링크만으로는 번역할 본문이 없습니다. 번역을 원하는 텍스트(예: 초록, 본문, 섹션 등)를 제공해 주시면 한국어로 번역해 드리겠습니다.

Overview

대형 언어 모델(LLM)은 놀라울 정도로 일관된 텍스트를 생성할 수 있지만, 각 토큰에 이르는 추론 과정은 사용자에게 숨겨져 있습니다. Walker와 Ewetz는 **Context Attribution via Graph Explanations (CAGE)**를 제안합니다. 이 방법은 방향성 귀속 그래프를 구축하여 생성된 각 토큰이 원래 프롬프트뿐만 아니라 앞선 모든 토큰에 의해 어떻게 영향을 받는지를 추적합니다. 인과성을 유지하고 그래프의 행 합이 1이 되도록 함으로써, CAGE는 기존의 “컨텍스트 귀속” 기법보다 훨씬 더 충실한 LLM 추론 설명을 제공합니다.

주요 기여

Attribution Graph Formalism – 전체 생성 시퀀스에서 토큰‑간 영향을 포착하는 방향성, 행 행 확률 그래프를 도입합니다.
CAGE Framework – 그래프 내 모든 경로에 대해 마진을 취해 인과 관계를 보존하면서 컨텍스트 기여도를 체계적으로 계산하는 방법을 제공합니다.
Faithfulness Boost – 여러 LLM(GPT‑2, LLaMA 등) 및 벤치마크 데이터셋에서 기여도 신뢰성을 최대 40 % 향상시켰음을 실증적으로 보여줍니다.
Generalizable Pipeline – Integrated Gradients, Gradient × Input 등 다양한 기여도 방법과 호환되며 기존 모델‑검사 툴킷에 쉽게 연결할 수 있습니다.
Open‑source Implementation – 저자들은 코드와 사전 계산된 그래프를 공개하여 재현성과 커뮤니티의 빠른 채택을 가능하게 합니다.

방법론

Token‑Level Influence Scores – 각 생성 단계마다, 저자들은 원시 귀속 벡터를 계산하여 (프롬프트 + 이전에 생성된 토큰) 모든 토큰이 기여했을 가능성을 나누어 배분합니다.
Graph Construction – 이 벡터들은 방향 그래프 (G)의 행이 됩니다. 토큰 i에서 토큰 j로의 엣지는 정규화된 영향 가중치를 가지고, 각 행의 합이 1이 되도록 보장합니다(행 확률성) 그리고 엣지는 시간상 앞으로만 향하도록 합니다(인과성).
Marginalization Over Paths – 원본 프롬프트가 이후 토큰에 미치는 전체 기여도를 얻기 위해, CAGE는 프롬프트 토큰에서 목표 토큰까지 가능한 모든 경로의 엣지 가중치 곱을 합산합니다. 이는 네트워크에서 전체 흐름을 계산하는 것과 유사합니다.
Evaluation Protocol – Faithfulness는 교란 테스트(높은 귀속 토큰을 제거하고 출력 변화를 관찰)와 가능한 경우 실제 추론 트레이스와의 비교를 통해 측정됩니다.

이 접근 방식은 의도적으로 모델에 구애받지 않으며, LLM을 토큰‑레벨 그래디언트 또는 기타 귀속 신호를 제공할 수 있는 블랙 박스로 취급한 뒤, 그 신호 위에 그래프를 구축합니다.

결과 및 발견

Model / Dataset	Baseline Attribution (no graph)	CAGE Improvement
GPT‑2 on WikiText‑103	0.62 (faithfulness score)	+28 %
LLaMA‑7B on GSM‑8K	0.55	+34 %
Falcon‑40B on TruthfulQA	0.48	+40 %

인간 판단과의 높은 상관관계 – 사용자가 설명의 명확성을 평가했을 때, CAGE 기반 귀속이 일관되게 선호되었습니다.
다양한 귀속 방법에 대한 견고함 – Integrated Gradients, DeepLIFT, 혹은 단순 gradient × input을 사용하든, 그래프 마진화 단계가 유사한 향상을 제공했습니다.
확장성 – 그래프 구축은 생성된 토큰 수에 대해 선형이며, 마진화는 동적 프로그래밍으로 효율적으로 수행되어 전체 추론 시간의 15 % 이하의 오버헤드만 발생합니다.

Practical Implications

Debugging LLM‑Powered Applications – 개발자는 프롬프트의 어느 부분(또는 이전에 생성된 토큰)이 예상치 못한 답변을 유발하는지 정확히 파악할 수 있어, 프롬프트를 다듬거나 가드레일을 추가하기가 쉬워집니다.
Safety & Compliance – 귀속 그래프는 규제 기관이 고위험 분야(예: 의료 조언, 금융 권고)에서 요구할 수 있는 감사 추적을 제공합니다.
Prompt Engineering Tools – IDE 플러그인에 통합된 CAGE는 실시간으로 영향 흐름을 시각화하여 엔지니어가 보다 신뢰할 수 있는 프롬프트를 설계하도록 돕습니다.
Model Distillation & Compression – 가장 영향력 있는 컨텍스트 윈도우를 밝혀냄으로써, CAGE는 추론 정확성을 손상시키지 않으면서 선택적 프루닝이나 지식 증류를 안내할 수 있습니다.
Explainable AI Interfaces – 최종 사용자 제품(채팅봇, 코드 어시스턴트)은 단순한 토큰‑대‑프롬프트 히트맵이 아니라 수학적으로 타당한 귀속 그래프에 기반한 “왜 이 답변인가?” 시각화를 제공할 수 있습니다.

제한 사항 및 향후 연구

선형 영향 가정 – 현재 그래프는 가산적인 기여도를 집계합니다; 토큰 간 비선형 상호작용이 충분히 반영되지 않을 수 있습니다.
기초 귀속 품질 의존 – 기본 gradient‑기반 방법이 노이즈가 많다면, 그래프도 그 노이즈를 물려받습니다.
매우 긴 컨텍스트에 대한 확장성 – 선형이지만 메모리 사용량이 시퀀스 길이에 따라 증가합니다; 향후 연구에서는 희소하거나 계층적인 그래프 표현을 탐색할 수 있습니다.
사용자 연구 필요 – 논문의 인간 평가가 제한적이며, 보다 폭넓은 사용성 연구를 통해 시각화의 실용적 가치를 확인할 수 있습니다.

저자들은 CAGE를 멀티모달 모델에 확장하고, attention‑head 정보를 통합하며, 인과 개입 실험을 탐구하여 귀속 그래프와 실제 모델 추론 사이의 연결을 더욱 강화할 것을 제안합니다.

저자

Chase Walker
Rickard Ewetz

논문 정보

arXiv ID: 2512.15663v1
Categories: cs.AI, cs.CL
Published: 2025년 12월 17일
PDF: Download PDF

[Paper] Attribution Graphs를 활용한 대형 언어 모델의 추론 설명

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 추론이 법칙을 만날 때

[Paper] ShareChat: 실제 환경에서의 챗봇 대화 데이터셋

[Paper] Bangla MedER: Multi-BERT Ensemble Approach를 이용한 방글라 의료 엔터티 인식

[Paper] AncientBench: 발굴 및 전승된 중국어 코퍼스에 대한 포괄적 평가를 향하여