[Paper] FLEURS-Kobani: 북부 쿠르드어를 위한 FLEURS 데이터셋 확장
Source: arXiv - 2603.29892v1
Overview
저자들은 FLEURS‑Kobani라는 새로운 구어 언어 벤치마크를 소개합니다. 이 벤치마크는 다국어 FLEURS 스위트에 북부 쿠르드어(ISO 639‑3 KMR)를 추가합니다. 31명의 원어민으로부터 5 k개 이상의 검증된 발화(≈ 18 시간)를 제공함으로써, 이 데이터셋은 이 자원이 부족한 언어에 대한 자동 음성 인식(ASR), 음성‑텍스트 번역(S2TT), 그리고 음성‑음성 번역(S2ST)의 첫 공개 평가를 가능하게 합니다.
주요 기여
- 데이터셋 생성: 북부 쿠르드어 5 162개의 고품질 발화(18 시간 24 분)를 기존 FLEURS 다국어 코퍼스와 완전히 정렬했습니다.
- 오픈 라이선스: CC BY 4.0으로 공개되어 학술 및 상업적 사용에 제한이 없습니다.
- 베이스라인 모델: Whisper v3‑large를 (i) ASR 및 (ii) 엔드‑투‑엔드(E2E) 음성‑텍스트 번역(KMR→EN)용으로 파인튜닝했습니다.
- 2단계 파인튜닝 레시피: 먼저 Mozilla Common Voice 쿠르드어 데이터에 Whisper를 적용하고, 이어서 FLEURS‑Kobani에 적용하여 최고의 ASR 점수(WER 28.11 %, CER 9.84 %)를 달성했습니다.
- 번역 벤치마크: E2E S2TT가 8.68 BLEU를 기록했으며, 비교를 위해 추가적인 피벗 기반 및 계단식 S2TT 설정도 보고되었습니다.
- 첫 공개 벤치마크: 쿠르드어 음성 기술에 대한 향후 연구를 위한 표준화된 테스트베드를 제공합니다.
Source:
방법론
데이터 수집 및 검증
- 원본 FLEURS 스크립트의 문장을 읽는 31명의 원어민(성별 균형, 다양한 억양) 녹음.
- 각 발화는 오디오 품질과 전사 정확성을 수동으로 확인하여 깨끗한 코퍼스를 확보.
모델 파인‑튜닝
- ASR: Whisper v3‑large(다국어 음성 680 k 시간 사전 학습) 모델을 먼저 Mozilla Common Voice의 쿠르드어 데이터로 파인‑튜닝하고, 이어서 FLEURS‑Kobani에 파인‑튜닝하는 “두 단계” 접근법 적용.
- S2TT: 동일한 Whisper 모델을 KMR→EN 번역을 위해 직접 파인‑튜닝. 비교를 위해 저자들은 또한 연쇄 파이프라인(ASR → 텍스트‑투‑텍스트 번역)과 중간 언어를 이용하는 피벗 기반 시스템을 구축.
평가
- ASR 성능은 Word Error Rate (WER)와 Character Error Rate (CER)로 측정.
- 번역 품질은 보류된 테스트 셋에서 BLEU 점수로 평가.
모든 실험은 단일 NVIDIA A100 GPU에서 수행했으며, 하이퍼파라미터(학습률, 배치 크기, 에폭)는 원본 Whisper 파인‑튜닝 가이드라인과 일관되게 유지했습니다.
Results & Findings
| 작업 | 모델 / 전략 | 평가지표 | 점수 |
|---|---|---|---|
| ASR | Whisper v3‑large (Common Voice → FLEURS‑Kobani) | WER | 28.11 % |
| Same model (single‑stage on FLEURS‑Kobani) | WER | 31.47 % | |
| Same model (single‑stage on Common Voice) | WER | 34.02 % | |
| ASR | — | CER | 9.84 % (two‑stage) |
| S2TT (KMR→EN) | Whisper v3‑large (E2E) | BLEU | 8.68 |
| Cascaded (ASR + MT) | BLEU | 7.91 | |
| Pivot‑derived targets | BLEU | 7.45 |
해석: 두 단계 파인튜닝은 오류율을 크게 낮추어, 더 큰 규모의 연관성이 낮은 쿠르드어 코퍼스(Common Voice)를 활용한 뒤 도메인‑특화된 FLEURS‑Kobani 데이터에 적응시키는 것이 유리함을 확인시켜 줍니다. 절대 BLEU 점수가 낮은 것은 저자원 언어 번역의 난이도를 반영하지만, 향후 개선을 위한 견고한 베이스라인을 제공합니다.
실용적 시사점
- Rapid prototyping: 개발자들은 이제 공개된 FLEURS‑Kobani 데이터를 기존 다국어 음성 파이프라인(예: Whisper, wav2vec 2.0)에 연결하여 쿠르드어 음성 비서, 전사 서비스, 혹은 자막 생성기를 만들 수 있다.
- Benchmarking: 이 데이터셋은 표준화된 테스트 세트를 제공하여 새로운 모델(예: Conformer 기반 ASR, 다국어 T5 번역)과 보고된 베이스라인을 공정하게 비교할 수 있게 한다.
- Transfer‑learning recipes: 시연된 2단계 파인튜닝 워크플로우는 소규모 “시드” 코퍼스(Common Voice)와 고품질 도메인 세트를 가진 모든 저자원 언어에 재사용 가능한 패턴이다.
- Cross‑modal research: 발화가 원본 FLEURS 다국어 텍스트와 정렬되어 있기 때문에, 연구자들은 추가 데이터를 수집하지 않고도 쿠르드어에 대한 다국어 음성‑음성 번역, 음성 변환, 혹은 교차 언어 음성 합성을 탐구할 수 있다.
- Community building: 개방형 라이선스는 쿠르드어 화자와 NGO들이 코퍼스를 확장하도록 장려한다(예: 방언 변이 추가, 도메인별 어휘), 이를 통해 해당 지역의 지속 가능한 음성 기술 생태계를 조성한다.
제한 사항 및 향후 작업
- 크기 및 다양성: 18 시간 분량의 코퍼스는 고자원 언어에 비해 여전히 비교적 작아, 잡음이 많은 혹은 도메인 외 오디오에 대한 모델 일반화가 제한됩니다.
- 방언 커버리지: 현재 코바니(북부) 방언만 포함되어 있으며, 남부 쿠르드어 및 기타 방언은 아직 다루어지지 않았습니다.
- 번역 품질: BLEU 점수가 개선 여지가 많음을 보여주며, 더 큰 다국어 번역 모델이나 데이터 증강 기법을 도입하면 도움이 될 수 있습니다.
- 음성‑대‑음성: 데이터셋이 S2ST 연구를 가능하게 하지만, 논문에서는 기본 S2ST 모델을 제공하지 않았습니다—향후 작업에서는 엔드‑투‑엔드 음성 번역 파이프라인을 벤치마크할 수 있습니다.
- 평가 지표: WER/CER와 BLEU 외에도 사용자 중심 지표(예: 이해도, 지연 시간)가 실제 배포 상황에 유용할 것입니다.
저자들은 코퍼스를 확장하고, 다국어 사전학습 전략을 탐색하며, 재현성을 간소화하기 위해 추가 벤치마크 스크립트를 공개할 계획입니다.
저자
- Daban Q. Jaff
- Mohammad Mohammadamini
논문 정보
- arXiv ID: 2603.29892v1
- 분류: cs.CL
- 출판일: 2026년 3월 31일
- PDF: Download PDF