[논문] 블랙박스 언어 모델 설명: 언어 구조화된 단어 집합 최적화 학습

발행: (2026년 6월 7일 PM 04:54 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2606.08497v1

개요

딥 언어 모델(DLM)이 의료와 같은 고위험 분야에 점점 더 많이 적용됨에 따라, 그들의 의사결정 근거를 이해하는 것이 신뢰, 안전, 책임성을 보장하기 위해 필수적이다. 그러나 이러한 DLM이 블랙박스 시스템(예: API)으로 동작하면서 내부 모델 상태(파라미터, 그래디언트 등)에 접근이 제한될 때, 해석 가능성을 확보하는 일은 특히 어렵다. 수많은 시도가 있었지만 기존 설명 방법들은 (i) 추론 시 효율성, (ii) 블랙박스와의 호환성(분포 외 행동을 유발하지 않음), (iii) 입력의 언어 구조에 기반한 이해 가능한 설명이라는 세 가지 핵심 요구를 동시에 만족시키지 못한다. 이러한 문제를 해결하기 위해 우리는 입력 단어의 작고 정보량이 풍부한 부분집합을 선택함으로써 DLM의 예측을 설명하는 방법을 제안한다. 이를 상쇄 최적화 문제로 정식화하여 입력별 탐색 없이도 효율적인 원샷 추론을 가능하게 한다. 우리의 선택 정책은 REINFORCE‑스타일 정책 그라디언트를 이용해 학습되며, 완전한 그라디언트‑프리 환경에서 이산적인 단어 선택을 수행한다. 해석 가능성을 높이고 인간의 언어 직관에 맞추기 위해, 우리는 그래프 구조 지식을 선택 과정에 통합하여 언어적으로 일관된 부분집합을 형성하고, 최종 사용자가 인지적으로 의미 있게 받아들일 수 있는 고정보도와 정보량을 동시에 제공한다. 우리는 다양한 DLM 아키텍처와 여러 실제 데이터셋에 대해 본 방법을 평가하였다. 그 결과, 우리 방법은 향상된 판별력과 언어학적으로 중요한 단서와의 높은 정렬성을 가진 단어 부분집합을 지속적으로 찾아내며, 블랙박스와 호환되는 기존 방법 및 블랙박스 모델의 그래디언트에 대한 오라클 접근을 허용하는 그래디언트 기반 접근법보다도 더 어려운 벤치마크에서 우수한 성능을 보였다. 우리의 코드는 여기에서 확인할 수 있다.

핵심 기여

이 논문은 다음 분야의 연구를 다룬다:

  • cs.AI
  • cs.CL

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.AI 분야의 발전에 기여한다.

저자

  • Minyoung Hwang
  • Seokhyun Lee
  • Changhee Lee

논문 정보

  • arXiv ID: 2606.08497v1
  • Categories: cs.AI, cs.CL
  • Published: 2026년 6월 7일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »