[Paper] SlovKE: 대규모 데이터셋 및 LLM 평가를 위한 슬로바키아어 키프레이즈 추출

발행: (2026년 3월 17일 AM 01:47 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2603.15523v1

개요

이 논문은 SlovKE를 소개한다—슬로바키아어 키프레이즈 추출을 위한 방대한 새로운 데이터셋으로, 227 k 이상의 과학 초록과 저자가 지정한 키프레이즈를 포함한다. 슬로바키아어 자원을 영어 벤치마크와 비교할 수 있는 규모로 확장함으로써, 저자들은 저자원이며 형태학적으로 풍부한 언어에서 최신 NLP 모델(LLM 포함)을 훈련하고 평가할 수 있게 한다.

핵심 기여

  • 데이터셋 생성: 슬로바키아 중앙 논문 레지스트리에서 수집한 227 432개의 슬로바키아어 초록을 정제하고 저자 제공 키프레이즈와 정렬 (≈25배 규모로 이전 슬로바키아어 자원보다 훨씬 큼).
  • 벤치마크 스위트: 세 가지 고전적인 비지도 방법(YAKE, TextRank, KeyBERT + SlovakBERT)과 프롬프트 기반 LLM 접근법(KeyLLM using GPT‑3.5‑turbo)의 평가.
  • 형태소 분석: 슬로바키아어 통계 추출기에서 오류의 주요 원인으로 굴절 불일치를 식별.
  • 오픈‑소스 공개: 데이터셋은 Hugging Face에, 전체 평가 코드는 GitHub에 호스팅되어 재현성과 커뮤니티 확장을 가능하게 함.

Methodology

  1. Data collection & cleaning – 저자들은 공개 논문 레지스트리를 크롤링하고, HTML을 제거한 뒤, 중복 항목을 삭제하고, 저자가 지정한 키프레이즈를 정규화했습니다(소문자 변환, 구두점 제거, 다이아크리틱 처리).
  2. Baseline extraction
    • YAKETextRank는 순수히 표면 통계(용어 빈도, 동시 발생)에 기반하여 작동합니다.
    • KeyBERTSlovakBERT의 문장 수준 임베딩을 활용해 후보 구문을 순위 매깁니다.
  3. LLM‑based extraction (KeyLLM) – 몇 개의 예시를 포함한 프롬프트를 GPT‑3.5‑turbo에 전달하여 각 초록에 대해 상위 6개의 키프레이즈를 출력하도록 요청하고, 필요에 따라 이를 정규 형태(lemma)로 반환하도록 지시합니다.
  4. Evaluation – 두 가지 매칭 기준을 사용합니다:
    • Exact‑match (문자열 동일) – 엄격하며 형태 변화 차이를 벌점으로 처리합니다.
    • Partial‑match (어간 토큰의 겹침) – 보다 관대하게 적용되며 의미적 관련성을 반영합니다.
      인간 주석자들은 또한 무작위로 선택한 100개의 초록을 평가하여 주석자 간 일치도(Cohen’s κ = 0.61)를 계산했습니다.

결과 및 발견

방법Exact‑match F1@6Partial‑match F1@6
YAKE5.2 %38.7 %
TextRank6.1 %44.3 %
KeyBERT (SlovakBERT)11.6 %51.5 %
KeyLLM (GPT‑3.5‑turbo)9.8 %48.9 %
  • 비지도 베이스라인은 슬로바키아어의 풍부한 굴절 때문에 정확 일치가 어려워(≤ 12 % F1) 표면 형태가 변합니다.
  • 부분 일치 점수가 크게 높아 모델이 올바른 개념을 포착했지만 정규형(lemma)을 놓치고 있음을 확인합니다.
  • KeyLLM은 정확‑부분 차이를 좁히며, 출력이 저자 지정 형태에 더 가깝습니다. 이는 LLM이 내부적으로 형태론 지식을 보유하고 있기 때문으로 보입니다.
  • 인간 평가 결과, “놓친” 정확 일치 중 다수가 여전히 관련이었으며, κ 값 0.61은 중간 정도의 합의를 나타내어 자동 정확 일치가 성능을 과소평가한다는 주장을 뒷받침합니다.

Practical Implications

  • Improved tooling for Slovak researchers – 검색 엔진, 디지털 라이브러리, 그리고 추천 시스템이 이제 강력한 키프레이즈 데이터셋을 활용해 슬로바키아 출판물을 보다 정확하게 색인하고 검색할 수 있습니다.
  • Template for other inflected, low‑resource languages – 스크래핑‑플러스‑클리닝 파이프라인과 형태론‑오류 분석을 체코어, 폴란드어, 혹은 헝가리어와 같은 다른 굴절형 저자원 언어에 복제할 수 있어 다국어 NLP 개발을 가속화합니다.
  • LLM prompting strategies – 오프‑더‑쉘프 LLM(GPT‑3.5‑turbo)을 최소한의 엔지니어링으로 레마타이즈된 키프레이즈를 생성하도록 유도할 수 있음을 보여주며, 맞춤형 모델을 훈련하지 않고도 다국어 키워드 추출이 필요한 개발자에게 빠른 해결책을 제공합니다.
  • Benchmark for future Slovak NLP models – 연구자들은 이제 표준화된 대규모 벤치마크에 대해 새로운 지도학습 또는 반지도학습 키프레이즈 추출기를 비교할 수 있어 빠른 진보를 촉진합니다.

제한 사항 및 향후 연구

  • 저자 지정 키프레이즈에 의존: 이는 일관성이 없거나 불완전할 수 있어 자동 시스템의 한계를 제한합니다.
  • 정확히 일치하는 메트릭 편향: 부분 매칭이 굴절 문제를 완화하지만, 형태소 수준이나 형태 정렬과 같은 언어학적으로 더 풍부한 평가가 더 명확한 그림을 제공할 것입니다.
  • LLM 비용 및 지연: 대규모로 GPT‑3.5‑turbo를 사용하는 것은 비용이 많이 들 수 있으며, 향후 연구에서는 동일 작업을 위해 더 작은 슬로바키아어 LLM을 미세 조정하는 방안을 탐색할 수 있습니다.
  • 초록을 넘어선 확장: 현재 데이터셋은 과학 초록에 초점을 맞추고 있으며, 이 방법을 전체 텍스트 기사, 특허 또는 뉴스에 적용하면 실제 영향력을 확대할 수 있습니다.

SlovKE 데이터셋과 부수 코드는 자유롭게 이용 가능하며, 커뮤니티가 차세대 슬로바키아어 도구를 구축하도록 초대합니다.

저자

  • David Števaňák
  • Marek Šuppa

논문 정보

  • arXiv ID: 2603.15523v1
  • Categories: cs.CL, cs.AI
  • Published: 2026년 3월 16일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 깊이 혼합 Attention

스케일링 깊이는 대형 언어 모델(LLMs)의 핵심 동인입니다. 그러나 LLM이 깊어짐에 따라 종종 신호 저하를 겪습니다: 유익한 특징이…