[Paper] SlovKE: 대규모 데이터셋 및 LLM 평가를 위한 슬로바키아어 키프레이즈 추출
발행: (2026년 3월 17일 AM 01:47 GMT+9)
8 분 소요
원문: arXiv
Source: arXiv - 2603.15523v1
개요
이 논문은 SlovKE를 소개한다—슬로바키아어 키프레이즈 추출을 위한 방대한 새로운 데이터셋으로, 227 k 이상의 과학 초록과 저자가 지정한 키프레이즈를 포함한다. 슬로바키아어 자원을 영어 벤치마크와 비교할 수 있는 규모로 확장함으로써, 저자들은 저자원이며 형태학적으로 풍부한 언어에서 최신 NLP 모델(LLM 포함)을 훈련하고 평가할 수 있게 한다.
핵심 기여
- 데이터셋 생성: 슬로바키아 중앙 논문 레지스트리에서 수집한 227 432개의 슬로바키아어 초록을 정제하고 저자 제공 키프레이즈와 정렬 (≈25배 규모로 이전 슬로바키아어 자원보다 훨씬 큼).
- 벤치마크 스위트: 세 가지 고전적인 비지도 방법(YAKE, TextRank, KeyBERT + SlovakBERT)과 프롬프트 기반 LLM 접근법(KeyLLM using GPT‑3.5‑turbo)의 평가.
- 형태소 분석: 슬로바키아어 통계 추출기에서 오류의 주요 원인으로 굴절 불일치를 식별.
- 오픈‑소스 공개: 데이터셋은 Hugging Face에, 전체 평가 코드는 GitHub에 호스팅되어 재현성과 커뮤니티 확장을 가능하게 함.
Methodology
- Data collection & cleaning – 저자들은 공개 논문 레지스트리를 크롤링하고, HTML을 제거한 뒤, 중복 항목을 삭제하고, 저자가 지정한 키프레이즈를 정규화했습니다(소문자 변환, 구두점 제거, 다이아크리틱 처리).
- Baseline extraction –
- YAKE와 TextRank는 순수히 표면 통계(용어 빈도, 동시 발생)에 기반하여 작동합니다.
- KeyBERT는 SlovakBERT의 문장 수준 임베딩을 활용해 후보 구문을 순위 매깁니다.
- LLM‑based extraction (KeyLLM) – 몇 개의 예시를 포함한 프롬프트를 GPT‑3.5‑turbo에 전달하여 각 초록에 대해 상위 6개의 키프레이즈를 출력하도록 요청하고, 필요에 따라 이를 정규 형태(lemma)로 반환하도록 지시합니다.
- Evaluation – 두 가지 매칭 기준을 사용합니다:
- Exact‑match (문자열 동일) – 엄격하며 형태 변화 차이를 벌점으로 처리합니다.
- Partial‑match (어간 토큰의 겹침) – 보다 관대하게 적용되며 의미적 관련성을 반영합니다.
인간 주석자들은 또한 무작위로 선택한 100개의 초록을 평가하여 주석자 간 일치도(Cohen’s κ = 0.61)를 계산했습니다.
결과 및 발견
| 방법 | Exact‑match F1@6 | Partial‑match F1@6 |
|---|---|---|
| YAKE | 5.2 % | 38.7 % |
| TextRank | 6.1 % | 44.3 % |
| KeyBERT (SlovakBERT) | 11.6 % | 51.5 % |
| KeyLLM (GPT‑3.5‑turbo) | 9.8 % | 48.9 % |
- 비지도 베이스라인은 슬로바키아어의 풍부한 굴절 때문에 정확 일치가 어려워(≤ 12 % F1) 표면 형태가 변합니다.
- 부분 일치 점수가 크게 높아 모델이 올바른 개념을 포착했지만 정규형(lemma)을 놓치고 있음을 확인합니다.
- KeyLLM은 정확‑부분 차이를 좁히며, 출력이 저자 지정 형태에 더 가깝습니다. 이는 LLM이 내부적으로 형태론 지식을 보유하고 있기 때문으로 보입니다.
- 인간 평가 결과, “놓친” 정확 일치 중 다수가 여전히 관련이었으며, κ 값 0.61은 중간 정도의 합의를 나타내어 자동 정확 일치가 성능을 과소평가한다는 주장을 뒷받침합니다.
Practical Implications
- Improved tooling for Slovak researchers – 검색 엔진, 디지털 라이브러리, 그리고 추천 시스템이 이제 강력한 키프레이즈 데이터셋을 활용해 슬로바키아 출판물을 보다 정확하게 색인하고 검색할 수 있습니다.
- Template for other inflected, low‑resource languages – 스크래핑‑플러스‑클리닝 파이프라인과 형태론‑오류 분석을 체코어, 폴란드어, 혹은 헝가리어와 같은 다른 굴절형 저자원 언어에 복제할 수 있어 다국어 NLP 개발을 가속화합니다.
- LLM prompting strategies – 오프‑더‑쉘프 LLM(GPT‑3.5‑turbo)을 최소한의 엔지니어링으로 레마타이즈된 키프레이즈를 생성하도록 유도할 수 있음을 보여주며, 맞춤형 모델을 훈련하지 않고도 다국어 키워드 추출이 필요한 개발자에게 빠른 해결책을 제공합니다.
- Benchmark for future Slovak NLP models – 연구자들은 이제 표준화된 대규모 벤치마크에 대해 새로운 지도학습 또는 반지도학습 키프레이즈 추출기를 비교할 수 있어 빠른 진보를 촉진합니다.
제한 사항 및 향후 연구
- 저자 지정 키프레이즈에 의존: 이는 일관성이 없거나 불완전할 수 있어 자동 시스템의 한계를 제한합니다.
- 정확히 일치하는 메트릭 편향: 부분 매칭이 굴절 문제를 완화하지만, 형태소 수준이나 형태 정렬과 같은 언어학적으로 더 풍부한 평가가 더 명확한 그림을 제공할 것입니다.
- LLM 비용 및 지연: 대규모로 GPT‑3.5‑turbo를 사용하는 것은 비용이 많이 들 수 있으며, 향후 연구에서는 동일 작업을 위해 더 작은 슬로바키아어 LLM을 미세 조정하는 방안을 탐색할 수 있습니다.
- 초록을 넘어선 확장: 현재 데이터셋은 과학 초록에 초점을 맞추고 있으며, 이 방법을 전체 텍스트 기사, 특허 또는 뉴스에 적용하면 실제 영향력을 확대할 수 있습니다.
SlovKE 데이터셋과 부수 코드는 자유롭게 이용 가능하며, 커뮤니티가 차세대 슬로바키아어 도구를 구축하도록 초대합니다.
저자
- David Števaňák
- Marek Šuppa
논문 정보
- arXiv ID: 2603.15523v1
- Categories: cs.CL, cs.AI
- Published: 2026년 3월 16일
- PDF: PDF 다운로드