[Paper] 블랙박스 언어 모델의 토큰 중요도 시각화

발행: (2025년 12월 12일 오후 11:01 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.11573v1

Overview

이 논문은 Distribution‑Based Sensitivity Analysis (DBSA) 라는 모델‑비종속 기법을 소개한다. 이 기법을 사용하면 개발자는 블랙‑박스 대형 언어 모델(LLM) 내부를 들여다보고 각 입력 토큰이 생성된 출력에 어떻게 영향을 미치는지 확인할 수 있다. LLM을 확률적 오라클로 취급하고, 그래디언트나 내부 가중치에 접근할 필요 없이 DBSA는 API 호출만 가능한 모델을 빠르고 플러그‑인‑플레이 방식으로 감사할 수 있게 해준다. 이는 법률, 의료, 혹은 규제‑중요 텍스트를 다루는 실제 시스템에서 흔히 발생하는 상황이다.

Key Contributions

  • 모델‑비종속 토큰‑레벨 민감도 지표 – 소스 코드나 그래디언트 접근 없이 블랙‑박스 API를 통해 접근 가능한 모든 LLM에 적용 가능.
  • 분포‑기반 접근법 – 제어된 교란 하에서 출력 분포를 비교함으로써 토큰 중요도를 추정하고, LLM 샘플링의 내재적 무작위성을 처리.
  • 경량 플러그‑인‑플레이 도구 – 토큰당 몇 번의 API 호출만 필요해 실시간 디버깅이나 정기 감사에 실용적.
  • 시각화 프레임워크 – 모델이 특정 생성에 “의존하는” 토큰을 강조하는 직관적인 히트맵을 생성.
  • 실증 검증 – 여러 벤치마크 프롬프트에서 DBSA가 기존 해석 방법(예: 어텐션 기반 점수, 그래디언트 기반 살리언시)으로 놓친 민감도를 드러냄을 입증.

Methodology

  1. 프롬프트 교란 – 입력 프롬프트의 각 토큰 t에 대해, DBSA는 t를 중립적인 플레이스홀더(예: 마스크 토큰 또는 동의어)로 교체한 n개의 교란 프롬프트를 만든다.
  2. 출력 샘플링 – 블랙‑박스 LLM에 각 교란 프롬프트를 k번 쿼리하여 생성된 연속문(또는 토큰‑레벨 확률) 샘플을 수집한다.
  3. 분포 비교 – 원본 출력 분포(교란되지 않은 프롬프트)와 각 교란된 분포를 통계적 거리(예: Jensen‑Shannon divergence)를 사용해 비교한다.
  4. 민감도 점수k 샘플에 대한 평균 거리가 토큰 t의 민감도 점수가 된다. 점수가 높을수록 토큰이 변경될 때 모델 출력이 눈에 띄게 변한다.
  5. 시각화 – 점수를 원본 프롬프트에 히트맵 형태로 매핑해 사용자가 “고영향” 토큰을 즉시 파악할 수 있게 한다.

이 방법은 반복적인 순방향 전파만 필요하므로 그래디언트가 필요 없으며, OpenAI, Anthropic, Cohere 등 어떤 호스팅 LLM에도 호환된다.

Results & Findings

ExperimentSetupKey Observation
Synthetic bias probe성별 명사가 포함된 프롬프트에 직업을 생성하도록 요청DBSA는 성별 토큰을 높은 민감도로 강조했으며, 어텐션 점수는 퍼짐.
Legal clause analysis계약 조항을 포함한 프롬프트에 요약을 요청책임 및 날짜와 관련된 토큰이 요약 출력에 가장 큰 영향을 미침.
Medical note generation환자 증상이 포함된 프롬프트에 진단을 요청증상 토큰이 가장 높은 민감도 점수를 받아 임상적 관련성을 확인.
Comparison with baselines그래디언트 기반 살리언시(가능한 경우)와 어텐션 가중치DBSA는 특히 확률적 샘플링(top‑p, temperature > 0) 하에서 더 명확하고 국소적인 중요도 맵을 지속적으로 제공.

전반적으로 DBSA는 토큰을 변경했을 때 LLM 응답이 통계적으로 유의미하게 변하는 토큰을 성공적으로 식별했으며, 다른 방법이 놓친 미묘한 의존성을 자주 드러냈다.

Practical Implications

  • 컴플라이언스 감사 – 규제 기관이 모델 결정이 프롬프트에 숨겨진 보호 속성(예: 인종, 성별)에 과도하게 의존하지 않는지 DBSA로 검증 가능.
  • 프롬프트 엔지니어링 – 개발자는 높은 민감도 토큰을 제거하거나 재표현하여 원치 않는 모델 동작을 줄이는 방식으로 프롬프트를 반복적으로 개선할 수 있다.
  • 안전 가드레일 – 프로덕션에서 민감도 점수를 모니터링해 새로운 프롬프트 구성이 예상치 못한 토큰 의존성을 도입하면 알림을 트리거.
  • 벤더‑비종속 테스트 – DBSA가 API‑전용 LLM에 모두 작동하므로 서드파티 언어 서비스를 활용하는 제품의 CI/CD 파이프라인에 자연스럽게 통합 가능.
  • 사용자‑대면 설명 가능성 – 프론트엔드 도구가 토큰 히트맵을 최종 사용자(예: AI‑생성 계약을 검토하는 변호사)에게 보여 신뢰와 투명성을 향상.

Limitations & Future Work

  • 샘플링 비용 – 토큰당 여러 번의 순방향 호출이 필요해 긴 프롬프트나 고처리량 서비스에서는 비용이 증가; 저자는 이를 완화하기 위한 적응형 샘플링을 제안.
  • 교란 선택 – 일반 마스크로 교체하는 것이 미묘한 의미 변화를 충분히 포착하지 못할 수 있음; 동의어 혹은 패러프레이즈 교란을 탐색하면 충실도가 향상될 가능성.
  • 통계적 거리 민감도 – 서로 다른 발산 측정법이 점수에 차이를 만들 수 있어, 대안들을 체계적으로 연구하는 작업이 남아 있음.
  • 동적 컨텍스트 – 현재 DBSA는 정적 프롬프트를 전제로 함; 다중 턴 대화나 스트리밍 출력으로 확장하는 것은 아직 해결되지 않은 과제.

저자들은 DBSA를 인과 추론 기법과 결합하고 API 모니터링 대시보드에 직접 통합하는 풍부한 툴박스를 구상하고 있다.

Authors

  • Paulius Rauba
  • Qiyao Wei
  • Mihaela van der Schaar

Paper Information

  • arXiv ID: 2512.11573v1
  • Categories: cs.CL, cs.LG
  • Published: December 12, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »