[Paper] 구조화된 Knowledge Discovery Approach를 통한 Language Model Generation의 Interpretability 향상
Source: arXiv - 2511.23335v1
Overview
이 논문은 현대 언어 모델이 유창한 텍스트를 생성할 수는 있지만, 왜 그 단어들을 선택했는지 거의 알 수 없는 오래된 문제점을 해결합니다. 고수준 엔터티와 저수준 지식 트리플을 모두 활용하는 “구조화된 지식 헌터”를 도입함으로써, 저자들은 생성 과정을 투명하게 만들면서도 출력 품질을 유지합니다. 이 접근법은 테이블‑투‑텍스트와 대화 두 작업에 모두 적용 가능함을 보여주어, 해석 가능하고 지식‑강화된 생성에 대한 일반적인 솔루션이 될 수 있음을 입증합니다.
Key Contributions
- 작업에 구애받지 않는 구조화된 지식 헌터: 도메인‑특정 검색기에 의존하지 않고 관련 엔터티와 트리플을 발견합니다.
- 지역‑전역 상호작용 스킴: 계층적 지식(엔터티 ↔ 트리플)의 강인한 표현을 학습합니다.
- 계층형 트랜스포머 기반 포인터 네트워크: 생성 과정에서 가장 적절한 지식 조각을 선택합니다.
- 통합 프레임워크: 지식 헌터를 任意의 사전학습 언어 모델에 결합하여 충실도와 해석 가능성을 동시에 향상시킵니다.
- 최신 최고 성능: 두 벤치마크(RotoWireFG 테이블‑투‑텍스트, KdConv 대화)에서 기존 방법 및 기본 언어 모델을 능가합니다.
Methodology
-
Structured Knowledge Representation
- 지식은 두 단계로 조직됩니다:
- 엔터티(예: “LeBron James”) – 고수준 개념.
- 트리플(예: “(LeBron James, scored, 30 points)”) – 저수준 사실 진술.
- 지역 인코더는 각 트리플의 의미를 포착하고, 전역 인코더는 동일 엔터티에 속한 모든 트리플의 정보를 집계합니다.
- 지식은 두 단계로 조직됩니다:
-
Local‑Global Interaction
- 모델은 지역 인코더와 전역 인코더 사이에 신호를 반복적으로 교환하여, 각 트리플이 자신의 엔터티 맥락을 인식하고, 엔터티는 트리플을 인식하도록 합니다. 이를 통해 두 수준 모두 풍부하고 맥락‑인식된 임베딩을 얻습니다.
-
Hierarchical Pointer Network
- 트랜스포머 백본 위에 구축된 포인터 네트워크는 먼저 어떤 엔터티를 참조할지 결정하고, 그 다음 해당 엔터티 아래의 어떤 트리플을 가져올지 선택합니다.
- 선택된 지식 조각은 추가 조건 토큰으로 하위 언어 모델(예: GPT‑2/3)에 전달되어 생성 과정을 안내합니다.
-
Training & Inference
- 포인터 선택과 최종 텍스트 생성을 위한 교차 엔트로피 손실을 사용한 지도 학습.
- 추론 시 모델은 생성된 문장뿐 아니라 **선택된 엔터티/트리플의 추적(trace)**도 출력하여 각 토큰의 사실적 근거를 명확히 설명합니다.
Results & Findings
| Dataset | Metric (↑ better) | Baseline (LM only) | Prior SOTA | Proposed Model |
|---|---|---|---|---|
| RotoWireFG (table‑to‑text) | BLEU | 18.7 | 20.4 | 23.1 |
| RotoWireFG | Fact‑Score (faithfulness) | 71.2 | 78.5 | 85.9 |
| KdConv (dialogue) | ROUGE‑L | 31.4 | 33.0 | 35.6 |
| KdConv | Knowledge‑Recall | 62.1 | 68.4 | 74.2 |
- Interpretability: 인간 평가자는 생성된 지식 추적을 따라가며 90 % 이상 내용의 사실적 출처를 정확히 식별했으며, 이는 불투명한 베이스라인에 비해 크게 향상된 결과입니다.
- Generalization: 동일한 헌터 아키텍처를 두 데이터셋 모두에 별도 작업‑특화 튜닝 없이 재사용했으며, 작업에 구애받지 않는 주장을 입증했습니다.
Practical Implications
- 디버깅 가능한 AI 어시스턴트 – 개발자는 챗봇이 사용자에게 답변할 때 사용한 정확한 지식 트리플을 노출시켜, 규정 준수 감사와 오류 분석을 훨씬 간단하게 할 수 있습니다.
- 팩트‑체크 파이프라인 – 명시적인 지식 추적을 하위 검증 도구에 전달함으로써 보고서나 요약 생성 시 환각 위험을 감소시킵니다.
- 플러그‑인 방식 증강 – 헌터가 사전학습 LM 위에 얹혀 있기 때문에, 기존 베어 모델을 최소한의 코드 변경만으로 해석 가능한 버전으로 업그레이드할 수 있습니다.
- 도메인‑중립 데이터 강화 – 기업은 자체 지식 그래프(제품 카탈로그, 의료 온톨로지 등)를 헌터에 투입함으로써 맞춤형 검색기를 구축하지 않아도 투명한 생성 능력을 즉시 확보할 수 있습니다.
Limitations & Future Work
- Knowledge coverage: 필요한 사실이 구조화된 그래프에 존재한다는 전제가 필요합니다; 누락된 트리플은 모델이 메우지 못합니다.
- Scalability: 매우 큰 지식 베이스에 대한 포인터 선택은 계산 비용이 크게 증가할 수 있으며, 저자들은 계층적 프루닝을 다음 단계로 제안합니다.
- Evaluation breadth: 실험이 두 벤치마크에만 국한되어 있어, 오픈‑도메인 QA나 장문 생성에 대한 광범위한 테스트가 필요합니다.
- User studies: 해석 가능성 평가는 전문가 평가자에 의해 수행되었으며, 실제 고객 지원 환경 등에서의 사용자 연구는 향후 과제로 남겨졌습니다.
전반적으로 이 논문은 언어 모델 생성이 충실함과 설명 가능성을 동시에 갖추도록 하는 설득력 있는 청사진을 제시합니다. 이는 많은 실무 팀이 현재 적극적으로 찾고 있는 조합입니다.
Authors
- Shuqi Liu
- Han Wu
- Guanzhi Deng
- Jianshu Chen
- Xiaoyang Wang
- Linqi Song
Paper Information
- arXiv ID: 2511.23335v1
- Categories: cs.CL, cs.AI
- Published: November 28, 2025
- PDF: Download PDF