[Paper] KNIGHT: 지식 그래프 기반 다중 선택형 질문 생성 및 적응형 난이도 보정
Source: arXiv - 2602.20135v1
개요
이 논문은 KNIGHT를 소개한다. 이 프레임워크는 Wikipedia와 같은 텍스트 소스를 재사용 가능한 지식 그래프로 변환하고, 대형 언어 모델(LLMs)을 사용해 필요에 따라 고‑품질 다지선다형 질문(MCQs)을 생성한다. 그래프 구축을 질문 생성과 분리함으로써, KNIGHT는 Retrieval‑Augmented Generation(RAG) 시스템 및 기타 LLM‑기반 애플리케이션을 평가하기 위한 대규모, 난이도‑제어가 가능한 MCQ 데이터셋을 저비용·고속으로 생산할 수 있게 한다.
주요 기여
- 그래프‑우선 파이프라인: 원시 문서에서 압축된 주제‑특정 지식 그래프를 구축하여 전체 원본 텍스트를 LLM에 반복적으로 입력하지 않고도 빠른 “읽기‑전용” 객관식 질문 생성이 가능하게 함.
- 적응형 난이도 보정: 사용자(또는 강사)가 난이도 수준을 지정할 수 있게 하며, 그래프의 깊이와 관계 복잡성을 탐색하여 다중‑홉 추론 질문을 포함한다.
- 도메인‑중립 설계: 어떠한 온톨로지와도 작동한다; 저자들은 위키피디아/위키데이터에서 이를 시연했지만 동일한 코드를 기업 지식베이스, 교과서, API 문서 등에 적용할 수 있다.
- 포괄적인 품질 평가: 다섯 가지 기준 루브릭(유창성, 모호성 없음, 관련성, 옵션 고유성, 답변 가능성)을 도입하고, KNIGHT가 생성한 객관식 질문이 인간이 만든 기준을 충족하거나 능가함을 보여준다.
- 비용 효율성 분석: 순수 LLM 프롬프트 대비 토큰 및 금전 절감 효과를 정량화하여, 그래프 재사용 전략이 실험에서 최대 70 %까지 생성 비용을 절감함을 증명한다.
Source: …
Methodology
- Document Ingestion – 원시 텍스트(예: 위키피디아 기사)를 파싱하고 구조화된 지식 베이스(Wikidata)에 연결합니다. 엔터티와 그 관계는 기존 엔터티 링크 및 관계 추출 모델을 사용해 추출됩니다.
- Knowledge Graph Construction – 추출된 트리플을 방향성 그래프로 조립합니다. 여기서 노드는 엔터티(개념, 날짜, 공식)이고, 엣지는 의미적 관계(예: born‑in, causes, part‑of)입니다. 가장 유익한 연결만 남기도록 그래프를 정제하여 경량화된 표현을 얻습니다.
- Difficulty Specification – 사용자가 목표 난이도 수준을 선택합니다. “easy” 질문의 경우 생성기가 단일 홉 엣지(직접적인 사실)를 샘플링합니다. “hard” 질문의 경우 2‑3 홉을 걸어가며, LLM이 여러 사실을 결합하도록(다중 홉 추론) 합니다.
- Prompt Engineering – 관련 서브‑그래프(트리플 리스트 형태)와 원하는 난이도를 포함한 간결한 프롬프트를 LLM(예: GPT‑4)에 전달합니다. 모델은 문제 본문, 네 개의 선택지, 그리고 정답을 반환합니다.
- Post‑processing & Validation – 자동 검사를 통해 다섯 가지 품질 기준을 적용하고, 모호하거나 중복된 선택지는 다시 생성합니다.
그래프가 단계 2 이후에 정적이기 때문에, 수천 개의 질문을 생성할 때는 작은 서브‑그래프만 LLM에 보내면 되므로 토큰 사용량을 크게 줄일 수 있습니다.
결과 및 발견
- 품질 점수: 6개의 MCQ 데이터셋(역사, 생물학, 수학) 전반에 걸쳐, KNIGHT는 유창성 4.6/5, 모호성 없음 4.8/5, 관련성 4.5/5, 옵션 고유성 4.7/5, 답변 가능성 4.4/5의 평균 점수를 달성했습니다.
- 비용 절감: 각 질문마다 전체 원본 텍스트를 제공하는 기준선과 비교했을 때, KNIGHT는 질문당 평균 토큰 수를 약 1,200 토큰에서 약 350 토큰으로 감소시켰으며, 이는 약 68 % 낮은 API 비용에 해당합니다.
- 난이도 보정: 인간 평가자는 의도된 난이도 수준을 82 %의 비율로 정확히 식별했으며, 이는 다중 홉 그래프 탐색이 실제로 더 어려운 질문을 생성한다는 것을 확인시켜줍니다.
- 벤치마크 정렬: 생성된 MCQ를 LLM 평가에 사용했을 때, 그 결과 순위가 기존 MMLU 스타일 벤치마크와 (±1 순위) 일치했으며, 이는 합성 데이터가 실제 평가에 대한 신뢰할 수 있는 대체물임을 나타냅니다.
Practical Implications
- Rapid Test Set Creation: 기업은 내부 지식 베이스, 제품 문서와 같은 도메인‑특화 MCQ 모음을 몇 주가 아니라 몇 시간 안에 만들 수 있어 RAG 파이프라인을 지속적으로 평가할 수 있습니다.
- Adaptive Training Curricula: 교육 플랫폼은 학습자의 숙련도에 맞춰 적절한 그래프 깊이를 선택함으로써 자동으로 연습 퀴즈를 생성하고 맞춤형 학습 경로를 제공할 수 있습니다.
- Cost‑Effective Model Auditing: 감사자는 매번 대규모 코퍼스를 재처리하는 높은 연산 비용 없이도 목표가 되는 “어려운” 질문으로 LLM을 탐색할 수 있습니다.
- Cross‑Domain Portability: 파이프라인이 엔터티‑관계 추출기와 지식 베이스만 필요하기 때문에, 개발자는 법령, 의료 지침, 소프트웨어 API와 같은 특수 분야에도 KNIGHT를 적용할 수 있습니다.
제한 사항 및 향후 작업
- 그래프 품질 의존성: 이 접근 방식은 상위 엔터티 연결 및 관계 추출 단계에서 발생하는 모든 오류를 물려받으며, 잡음이 많은 그래프는 모호하거나 사실과 다른 질문을 초래할 수 있습니다.
- 온톨로지 정렬: 도메인에 구애받지 않는다고 주장하지만, 현재 구현은 비교적 깔끔하고 계층적인 온톨로지(예: Wikidata)를 전제로 합니다. 매우 비구조화된 코퍼스는 맞춤형 스키마 설계가 필요할 수 있습니다.
- 다중 홉 추론의 확장성: 홉 수가 증가함에 따라 서브 그래프 크기가 커져 토큰 절감 효과가 감소합니다. 향후 연구에서는 그래프 요약 기법이나 계층적 프롬프트를 탐색하여 프롬프트 길이를 짧게 유지할 수 있습니다.
- 인간 검증 루프: 이 연구는 자동화된 메트릭과 제한된 인간 검토에 의존했습니다. 보다 대규모 사용자 연구를 통해 난이도 인식 및 교육 효과에 대한 주장을 확고히 할 수 있습니다.
핵심 요약: KNIGHT는 지식 그래프에 대한 적당한 초기 투자가 큰 수익을 가져올 수 있음을 보여줍니다. 이를 통해 LLM을 저비용, 주문형 객관식 문제 생성기로 전환시켜 현대 AI 제품의 빠른 반복 주기에 발맞출 수 있습니다.
저자
- Mohammad Amanlou
- Erfan Shafiee Moghaddam
- Yasaman Amou Jafari
- Mahdi Noori
- Farhan Farsi
- Behnam Bahrak
논문 정보
- arXiv ID: 2602.20135v1
- 분류: cs.CL, cs.AI, cs.IR
- 발표일: 2026년 2월 23일
- PDF: PDF 다운로드