[Paper] 네팔어 LLM을 향해: 네팔어 BPE 토크나이저를 이용한 효율적인 GPT 훈련
발행: (2025년 12월 17일 오전 01:53 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2512.14585v1
번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.
개요
새로운 연구 노력은 고품질 네팔어 언어 모델의 오랜 부족 문제를 해결하기 위해 유창한 네팔어 텍스트를 생성할 수 있는 GPT‑스타일 생성 모델을 구축합니다. 맞춤형 네팔어 전용 BPE 토크나이저, GPT‑3의 최신 학습 기법, 그리고 메모리 효율적인 FlashAttention을 결합함으로써, 저자들은 비교적 소규모 모델만으로도 일관된 뉴스 스타일의 네팔어 문장을 생성할 수 있음을 보여줍니다.
핵심 기여
- 전용 네팔어 BPE 토크나이저 (16 k vocab) 를 네팔어 코퍼스 전용으로 학습하여 다국어 토크나이저보다 더 일관된 서브‑워드 분할을 제공.
- GPT‑2‑기반 아키텍처 를 GPT‑3‑영감을 받은 학습 방식(스케일된 배치 크기, 코사인 학습률 감소, 워밍업, 아키텍처 조정)으로 미세조정.
- 효율적인 학습 파이프라인 은 FlashAttention을 사용해 GPU 메모리 사용량을 약 30 % 절감하면서 학습 안정성을 유지.
- 대규모 네팔어 사전학습 데이터: 정제된 NepBERTa 코퍼스 10.75 GB + 웹 스크랩 네팔어 뉴스 기사(≈12 GB 총합).
- 실험 결과: 단 두 에포크만에 모델이 훈련 손실 3.168, 검증 손실 3.082, 보류된 네팔어 텍스트에 대한 퍼플렉시티 21.80을 달성.
방법론
- 데이터 수집 및 정제 – 저자들은 공개된 NepBERTa 데이터셋을 새로 스크랩한 뉴스 코퍼스와 병합한 뒤, 언어별 정제(중복 제거, 스크립트 정규화, 비‑데바나가리 문자 제거)를 적용했습니다.
- 토크나이저 설계 – 결합된 코퍼스를 사용해 16 k 어휘를 가진 Byte‑Pair Encoding 토크나이저를 학습했습니다. 네팔어만을 대상으로 하기 때문에, 일반적인 형태소와 교착 접미사가 다국어 토크나이저보다 더 신뢰성 있게 포착됩니다.
- 모델 아키텍처 – 표준 GPT‑2 트랜스포머(12층, 768 hidden size, 12 heads)를 채택했습니다. 작은 개선점으로는 레이어‑노름 위치 조정과 네팔어의 풍부한 형태론을 더 잘 처리하기 위한 약간 큰 피드‑포워드 차원을 포함했습니다.
- 학습 트릭
- 학습률 스케줄: 선형 워밍‑업(10 k steps) → 코사인 감쇠.
- 배치 스케일링: GPU 메모리를 초과하지 않으면서 큰 배치 크기를 시뮬레이션하기 위한 그래디언트 누적.
- FlashAttention: 메모리 친화적인 방식으로 어텐션을 계산하는 커널로, 동일 모델을 24 GB GPU에서 학습할 수 있게 함.
- 학습 체계 – 모델은 약 12 GB 데이터셋을 8 × A100 GPU 클러스터에서 두 번 전체(epochs) 학습했습니다.
결과 및 발견
| 지표 | 값 |
|---|---|
| Training loss | 3.168 |
| Validation loss | 3.082 |
| Perplexity (validation) | 21.80 |
| Sample output | “काठमाडौंका प्रमुख समाचारहरू अनुसार, सरकारले नयाँ बजेट योजना घोषणा गर्यो…” (a fluent news‑style sentence) |
- 낮은 퍼플렉시티는 모델이 영어에 대한 초기 GPT‑2 모델과 비슷한 수준의 자신감으로 네팔어 토큰을 예측한다는 것을 나타냅니다.
- 정성적 검사 결과, 모델이 네팔어 문법을 잘 따르고, 후치사를 올바르게 처리하며, 적절한 존칭을 생성함을 확인했습니다—이는 이전 인코더‑전용 모델들이 어려워했던 영역입니다.
- 학습 효율성: FlashAttention은 일반 어텐션에 비해 단계당 메모리를 약 30 % 절감하고, 실제 소요 시간을 약 15 % 단축했습니다.
실용적 함의
- 콘텐츠 생성: 미디어 기관은 영어‑네팔어 번역 파이프라인을 사용하지 않고도 네팔어로 자동 뉴스 요약, 요약문, 소셜 미디어 게시물을 프로토타입할 수 있다.
- 대화형 에이전트: 네팔용으로 구축된 챗봇 및 음성 비서는 이제 자연스러운 응답을 생성하는 생성 백본에 의존할 수 있어 사용자 경험이 향상된다.
- 저자원 파인튜닝: 기본 모델이 이미 네팔어 형태론을 포착하고 있기 때문에, 하위 작업(요약, 질문 응답)은 다국어 LLM보다 훨씬 적은 라벨링된 예시로 파인튜닝할 수 있다.
- 오픈소스 생태계: 토크나이저와 학습 스크립트는 단일 고성능 GPU에서도 실행될 정도로 가볍고, 커뮤니티 기여와 도메인 특화 확장(예: 법률 또는 의료 네팔어 텍스트)을 장려한다.
제한 사항 및 향후 작업
- 규모: 모델은 아직 GPT‑2 규모의 네트워크이며, 더 큰 아키텍처는 당혹도(perplexity)를 낮추고 장문 일관성을 향상시킬 수 있습니다.
- 데이터 다양성: 훈련 데이터가 뉴스 텍스트에 주로 편중되어 있으며, 문학이나 비공식 소셜 미디어와 같은 다른 분야는 충분히 대표되지 않아 스타일 전환에 제한이 있을 수 있습니다.
- 평가 범위: 논문에서는 손실과 당혹도만 보고하고 네팔어에 대한 사실성, 편향, 독성 등에 대한 인간 평가 벤치마크가 부족합니다.
- 향후 방향: 저자들이 제안한 바에 따르면 GPT‑3 수준의 파라미터로 확장하고, 네팔에서 흔히 사용되는 다국어 코드스위칭 데이터를 포함하며, 네팔어 생성 작업을 위한 벤치마크 스위트를 공개하는 것이 포함됩니다.
저자
- Adarsha Shrestha
- Basanta Pokharel
- Binit Shrestha
- Smriti Adhikari
- Dinesh Gothe
논문 정보
- arXiv ID: 2512.14585v1
- 카테고리: cs.CL, cs.AI
- 출판일: 2025년 12월 16일
- PDF: PDF 다운로드