[Paper] Attribution Graphs를 활용한 대형 언어 모델의 추론 설명

발행: (2025년 12월 18일 오전 03:15 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.15663v1

위에 제공된 소스 링크만으로는 번역할 본문이 없습니다. 번역을 원하는 텍스트(예: 초록, 본문, 섹션 등)를 제공해 주시면 한국어로 번역해 드리겠습니다.

Overview

대형 언어 모델(LLM)은 놀라울 정도로 일관된 텍스트를 생성할 수 있지만, 각 토큰에 이르는 추론 과정은 사용자에게 숨겨져 있습니다. Walker와 Ewetz는 **Context Attribution via Graph Explanations (CAGE)**를 제안합니다. 이 방법은 방향성 귀속 그래프를 구축하여 생성된 각 토큰이 원래 프롬프트뿐만 아니라 앞선 모든 토큰에 의해 어떻게 영향을 받는지를 추적합니다. 인과성을 유지하고 그래프의 행 합이 1이 되도록 함으로써, CAGE는 기존의 “컨텍스트 귀속” 기법보다 훨씬 더 충실한 LLM 추론 설명을 제공합니다.

주요 기여

  • Attribution Graph Formalism – 전체 생성 시퀀스에서 토큰‑간 영향을 포착하는 방향성, 행 행 확률 그래프를 도입합니다.
  • CAGE Framework – 그래프 내 모든 경로에 대해 마진을 취해 인과 관계를 보존하면서 컨텍스트 기여도를 체계적으로 계산하는 방법을 제공합니다.
  • Faithfulness Boost – 여러 LLM(GPT‑2, LLaMA 등) 및 벤치마크 데이터셋에서 기여도 신뢰성을 최대 40 % 향상시켰음을 실증적으로 보여줍니다.
  • Generalizable Pipeline – Integrated Gradients, Gradient × Input 등 다양한 기여도 방법과 호환되며 기존 모델‑검사 툴킷에 쉽게 연결할 수 있습니다.
  • Open‑source Implementation – 저자들은 코드와 사전 계산된 그래프를 공개하여 재현성과 커뮤니티의 빠른 채택을 가능하게 합니다.

방법론

  1. Token‑Level Influence Scores – 각 생성 단계마다, 저자들은 원시 귀속 벡터를 계산하여 (프롬프트 + 이전에 생성된 토큰) 모든 토큰이 기여했을 가능성을 나누어 배분합니다.
  2. Graph Construction – 이 벡터들은 방향 그래프 (G)의 행이 됩니다. 토큰 i에서 토큰 j로의 엣지는 정규화된 영향 가중치를 가지고, 각 행의 합이 1이 되도록 보장합니다(행 확률성) 그리고 엣지는 시간상 앞으로만 향하도록 합니다(인과성).
  3. Marginalization Over Paths – 원본 프롬프트가 이후 토큰에 미치는 전체 기여도를 얻기 위해, CAGE는 프롬프트 토큰에서 목표 토큰까지 가능한 모든 경로의 엣지 가중치 곱을 합산합니다. 이는 네트워크에서 전체 흐름을 계산하는 것과 유사합니다.
  4. Evaluation Protocol – Faithfulness는 교란 테스트(높은 귀속 토큰을 제거하고 출력 변화를 관찰)와 가능한 경우 실제 추론 트레이스와의 비교를 통해 측정됩니다.

이 접근 방식은 의도적으로 모델에 구애받지 않으며, LLM을 토큰‑레벨 그래디언트 또는 기타 귀속 신호를 제공할 수 있는 블랙 박스로 취급한 뒤, 그 신호 위에 그래프를 구축합니다.

결과 및 발견

Model / DatasetBaseline Attribution (no graph)CAGE Improvement
GPT‑2 on WikiText‑1030.62 (faithfulness score)+28 %
LLaMA‑7B on GSM‑8K0.55+34 %
Falcon‑40B on TruthfulQA0.48+40 %
  • 인간 판단과의 높은 상관관계 – 사용자가 설명의 명확성을 평가했을 때, CAGE 기반 귀속이 일관되게 선호되었습니다.
  • 다양한 귀속 방법에 대한 견고함 – Integrated Gradients, DeepLIFT, 혹은 단순 gradient × input을 사용하든, 그래프 마진화 단계가 유사한 향상을 제공했습니다.
  • 확장성 – 그래프 구축은 생성된 토큰 수에 대해 선형이며, 마진화는 동적 프로그래밍으로 효율적으로 수행되어 전체 추론 시간의 15 % 이하의 오버헤드만 발생합니다.

Practical Implications

  • Debugging LLM‑Powered Applications – 개발자는 프롬프트의 어느 부분(또는 이전에 생성된 토큰)이 예상치 못한 답변을 유발하는지 정확히 파악할 수 있어, 프롬프트를 다듬거나 가드레일을 추가하기가 쉬워집니다.
  • Safety & Compliance – 귀속 그래프는 규제 기관이 고위험 분야(예: 의료 조언, 금융 권고)에서 요구할 수 있는 감사 추적을 제공합니다.
  • Prompt Engineering Tools – IDE 플러그인에 통합된 CAGE는 실시간으로 영향 흐름을 시각화하여 엔지니어가 보다 신뢰할 수 있는 프롬프트를 설계하도록 돕습니다.
  • Model Distillation & Compression – 가장 영향력 있는 컨텍스트 윈도우를 밝혀냄으로써, CAGE는 추론 정확성을 손상시키지 않으면서 선택적 프루닝이나 지식 증류를 안내할 수 있습니다.
  • Explainable AI Interfaces – 최종 사용자 제품(채팅봇, 코드 어시스턴트)은 단순한 토큰‑대‑프롬프트 히트맵이 아니라 수학적으로 타당한 귀속 그래프에 기반한 “왜 이 답변인가?” 시각화를 제공할 수 있습니다.

제한 사항 및 향후 연구

  • 선형 영향 가정 – 현재 그래프는 가산적인 기여도를 집계합니다; 토큰 간 비선형 상호작용이 충분히 반영되지 않을 수 있습니다.
  • 기초 귀속 품질 의존 – 기본 gradient‑기반 방법이 노이즈가 많다면, 그래프도 그 노이즈를 물려받습니다.
  • 매우 긴 컨텍스트에 대한 확장성 – 선형이지만 메모리 사용량이 시퀀스 길이에 따라 증가합니다; 향후 연구에서는 희소하거나 계층적인 그래프 표현을 탐색할 수 있습니다.
  • 사용자 연구 필요 – 논문의 인간 평가가 제한적이며, 보다 폭넓은 사용성 연구를 통해 시각화의 실용적 가치를 확인할 수 있습니다.

저자들은 CAGE를 멀티모달 모델에 확장하고, attention‑head 정보를 통합하며, 인과 개입 실험을 탐구하여 귀속 그래프와 실제 모델 추론 사이의 연결을 더욱 강화할 것을 제안합니다.

저자

  • Chase Walker
  • Rickard Ewetz

논문 정보

  • arXiv ID: 2512.15663v1
  • Categories: cs.AI, cs.CL
  • Published: 2025년 12월 17일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »