[Paper] 블랙박스 언어 모델의 토큰 중요도 시각화
Source: arXiv - 2512.11573v1
Overview
이 논문은 Distribution‑Based Sensitivity Analysis (DBSA) 라는 모델‑비종속 기법을 소개한다. 이 기법을 사용하면 개발자는 블랙‑박스 대형 언어 모델(LLM) 내부를 들여다보고 각 입력 토큰이 생성된 출력에 어떻게 영향을 미치는지 확인할 수 있다. LLM을 확률적 오라클로 취급하고, 그래디언트나 내부 가중치에 접근할 필요 없이 DBSA는 API 호출만 가능한 모델을 빠르고 플러그‑인‑플레이 방식으로 감사할 수 있게 해준다. 이는 법률, 의료, 혹은 규제‑중요 텍스트를 다루는 실제 시스템에서 흔히 발생하는 상황이다.
Key Contributions
- 모델‑비종속 토큰‑레벨 민감도 지표 – 소스 코드나 그래디언트 접근 없이 블랙‑박스 API를 통해 접근 가능한 모든 LLM에 적용 가능.
- 분포‑기반 접근법 – 제어된 교란 하에서 출력 분포를 비교함으로써 토큰 중요도를 추정하고, LLM 샘플링의 내재적 무작위성을 처리.
- 경량 플러그‑인‑플레이 도구 – 토큰당 몇 번의 API 호출만 필요해 실시간 디버깅이나 정기 감사에 실용적.
- 시각화 프레임워크 – 모델이 특정 생성에 “의존하는” 토큰을 강조하는 직관적인 히트맵을 생성.
- 실증 검증 – 여러 벤치마크 프롬프트에서 DBSA가 기존 해석 방법(예: 어텐션 기반 점수, 그래디언트 기반 살리언시)으로 놓친 민감도를 드러냄을 입증.
Methodology
- 프롬프트 교란 – 입력 프롬프트의 각 토큰 t에 대해, DBSA는 t를 중립적인 플레이스홀더(예: 마스크 토큰 또는 동의어)로 교체한 n개의 교란 프롬프트를 만든다.
- 출력 샘플링 – 블랙‑박스 LLM에 각 교란 프롬프트를 k번 쿼리하여 생성된 연속문(또는 토큰‑레벨 확률) 샘플을 수집한다.
- 분포 비교 – 원본 출력 분포(교란되지 않은 프롬프트)와 각 교란된 분포를 통계적 거리(예: Jensen‑Shannon divergence)를 사용해 비교한다.
- 민감도 점수 – k 샘플에 대한 평균 거리가 토큰 t의 민감도 점수가 된다. 점수가 높을수록 토큰이 변경될 때 모델 출력이 눈에 띄게 변한다.
- 시각화 – 점수를 원본 프롬프트에 히트맵 형태로 매핑해 사용자가 “고영향” 토큰을 즉시 파악할 수 있게 한다.
이 방법은 반복적인 순방향 전파만 필요하므로 그래디언트가 필요 없으며, OpenAI, Anthropic, Cohere 등 어떤 호스팅 LLM에도 호환된다.
Results & Findings
| Experiment | Setup | Key Observation |
|---|---|---|
| Synthetic bias probe | 성별 명사가 포함된 프롬프트에 직업을 생성하도록 요청 | DBSA는 성별 토큰을 높은 민감도로 강조했으며, 어텐션 점수는 퍼짐. |
| Legal clause analysis | 계약 조항을 포함한 프롬프트에 요약을 요청 | 책임 및 날짜와 관련된 토큰이 요약 출력에 가장 큰 영향을 미침. |
| Medical note generation | 환자 증상이 포함된 프롬프트에 진단을 요청 | 증상 토큰이 가장 높은 민감도 점수를 받아 임상적 관련성을 확인. |
| Comparison with baselines | 그래디언트 기반 살리언시(가능한 경우)와 어텐션 가중치 | DBSA는 특히 확률적 샘플링(top‑p, temperature > 0) 하에서 더 명확하고 국소적인 중요도 맵을 지속적으로 제공. |
전반적으로 DBSA는 토큰을 변경했을 때 LLM 응답이 통계적으로 유의미하게 변하는 토큰을 성공적으로 식별했으며, 다른 방법이 놓친 미묘한 의존성을 자주 드러냈다.
Practical Implications
- 컴플라이언스 감사 – 규제 기관이 모델 결정이 프롬프트에 숨겨진 보호 속성(예: 인종, 성별)에 과도하게 의존하지 않는지 DBSA로 검증 가능.
- 프롬프트 엔지니어링 – 개발자는 높은 민감도 토큰을 제거하거나 재표현하여 원치 않는 모델 동작을 줄이는 방식으로 프롬프트를 반복적으로 개선할 수 있다.
- 안전 가드레일 – 프로덕션에서 민감도 점수를 모니터링해 새로운 프롬프트 구성이 예상치 못한 토큰 의존성을 도입하면 알림을 트리거.
- 벤더‑비종속 테스트 – DBSA가 API‑전용 LLM에 모두 작동하므로 서드파티 언어 서비스를 활용하는 제품의 CI/CD 파이프라인에 자연스럽게 통합 가능.
- 사용자‑대면 설명 가능성 – 프론트엔드 도구가 토큰 히트맵을 최종 사용자(예: AI‑생성 계약을 검토하는 변호사)에게 보여 신뢰와 투명성을 향상.
Limitations & Future Work
- 샘플링 비용 – 토큰당 여러 번의 순방향 호출이 필요해 긴 프롬프트나 고처리량 서비스에서는 비용이 증가; 저자는 이를 완화하기 위한 적응형 샘플링을 제안.
- 교란 선택 – 일반 마스크로 교체하는 것이 미묘한 의미 변화를 충분히 포착하지 못할 수 있음; 동의어 혹은 패러프레이즈 교란을 탐색하면 충실도가 향상될 가능성.
- 통계적 거리 민감도 – 서로 다른 발산 측정법이 점수에 차이를 만들 수 있어, 대안들을 체계적으로 연구하는 작업이 남아 있음.
- 동적 컨텍스트 – 현재 DBSA는 정적 프롬프트를 전제로 함; 다중 턴 대화나 스트리밍 출력으로 확장하는 것은 아직 해결되지 않은 과제.
저자들은 DBSA를 인과 추론 기법과 결합하고 API 모니터링 대시보드에 직접 통합하는 풍부한 툴박스를 구상하고 있다.
Authors
- Paulius Rauba
- Qiyao Wei
- Mihaela van der Schaar
Paper Information
- arXiv ID: 2512.11573v1
- Categories: cs.CL, cs.LG
- Published: December 12, 2025
- PDF: Download PDF