[Paper] 대규모 언어 모델을 저자원 티베트어에 적용하기: 두 단계 지속적 및 지도 학습 파인튜닝 연구

발행: 2개월 전 (2025년 12월 4일 오전 02:06 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2512.03976v1

개요

이 논문은 많은 개발자들이 직면하는 실용적인 문제를 다룹니다: 디지털 텍스트가 거의 없는 언어, 즉 티베트어에 대해 강력한 **large language model (LLM)**을 잘 작동하도록 만드는 방법. 오픈‑소스 Qwen2.5‑3B 모델을 두 단계로 fine‑tuning함으로써, 저자들은 모델의 일반 언어 이해 능력(lower perplexity)과 중국어를 티베트어로 번역하는 능력을 크게 향상시킬 수 있음을 보여줍니다.

주요 기여

2단계 적응 파이프라인 – 먼저 원시 티베트어 코퍼스에 **지속적 사전 학습 (CPT)**을 수행하고, 그 다음 **지도 미세 조정 (SFT)**을 번역 및 다운스트림 작업에 적용합니다.
티베트어에 대한 정량적 베이스라인 – 티베트어에 대한 LLM 적응 역학을 체계적으로 평가한 최초 연구로, 퍼플렉시티와 번역 지표(BLEU, chrF)를 포함합니다.
대규모 레이어별 분석 – 대형 Qwen‑3‑4B 모델의 435개 레이어를 검사하여 지식이 저장되는 위치(임베딩 및 출력 헤드)와 작업 특화 변화가 중후반 MLP 레이어를 통해 어떻게 전파되는지 밝힙니다.
오픈 및 재현 가능한 프레임워크 – 모든 데이터 전처리 스크립트, 학습 구성 및 평가 코드를 공개하여 다른 팀이 저자원 언어에 대해 동일 워크플로를 재현할 수 있도록 합니다.

방법론

Data collection – the authors gathered ~1.2 GB of Tibetan text from web crawls, religious scriptures, and community forums, then cleaned and tokenized it with a Tibetan‑aware tokenizer.
데이터 수집 – 저자들은 웹 크롤링, 종교 경전, 커뮤니티 포럼에서 약 1.2 GB의 티베트어 텍스트를 수집한 뒤, 티베트어를 인식하는 토크나이저로 정제하고 토큰화했습니다.
Continual Pre‑training (CPT) – the base Qwen2.5‑3B model continues its language‑model training on the Tibetan corpus only. This step builds a “Tibetan semantic manifold” without overwriting the multilingual knowledge already encoded in the model.
지속적 사전학습 (CPT) – 기본 Qwen2.5‑3B 모델이 티베트어 코퍼스에만 언어 모델 학습을 계속합니다. 이 단계는 모델에 이미 인코딩된 다언어 지식을 덮어쓰지 않으면서 “티베트어 의미 매니폴드”를 구축합니다.
Supervised Fine‑Tuning (SFT) – a parallel dataset of Chinese‑to‑Tibetan sentence pairs (≈30 k examples) and a small set of classification/QA tasks in Tibetan are used to teach the model how to produce useful outputs for specific applications.
지도식 파인튜닝 (SFT) – 중‑티베트어 문장 쌍(≈30 k 예시)으로 구성된 병렬 데이터셋과 티베트어 분류/질문응답 작업 소규모 세트를 활용해 모델이 특정 응용을 위한 유용한 출력을 생성하도록 학습시킵니다.
Evaluation – perplexity on a held‑out Tibetan test set measures general language modeling ability; BLEU and chrF scores assess translation quality. For deeper insight, the authors probe activations across every layer of a larger 4‑billion‑parameter sibling model.
평가 – 별도 보유 티베트어 테스트 세트에서의 퍼플렉시티는 일반 언어 모델링 능력을 측정하고, BLEU와 chrF 점수는 번역 품질을 평가합니다. 보다 깊은 통찰을 위해 저자들은 40억 파라미터 규모의 형제 모델의 모든 층에 걸친 활성화를 탐색합니다.

The pipeline is deliberately simple: no architectural changes, just careful data curation and staged training, which makes it easy to adopt with existing open‑source tooling (e.g., Hugging Face Transformers, DeepSpeed).
파이프라인은 의도적으로 단순합니다: 아키텍처 변경 없이 신중한 데이터 정제와 단계적 학습만으로 구성되어 기존 오픈소스 도구(e.g., Hugging Face Transformers, DeepSpeed)를 사용해 쉽게 적용할 수 있습니다.

결과 및 발견

지표	Baseline (Qwen2.5‑3B)	CPT 적용 후	CPT + SFT 적용 후
Perplexity (티베트어)	2.98	1.54	1.48
BLEU (Zh→Ti)	0.046	0.172	0.261
chrF (Zh→Ti)	2.2	4.8	6.6

CPT 적용 후 Perplexity가 약 48 % 감소했으며, 이는 모델이 티베트어 구문과 형태를 훨씬 더 잘 “이해”하게 되었음을 의미합니다.
전체 두 단계 과정을 거친 후 번역 품질이 3배 이상 향상되어, 거의 무작위 수준에서 초안 번역에 활용할 수 있는 수준으로 상승했습니다.
층 분석 결과, CPT는 주로 임베딩 매트릭스와 최종 언어 모델 헤드를 재구성하고, SFT는 중간 MLP 층에 미묘한 변화를 도입해 번역에 특화된 모델로 만들었습니다. 특히 초기 층은 비교적 안정적으로 유지되어 다언어 기반이 보존됨을 보여줍니다.

실용적 시사점

빠른 현지화 – 티베트어(또는 기타 저자원 언어)를 챗봇, 검색, 콘텐츠 검토 파이프라인에 추가하려는 기업은 모델을 처음부터 학습하는 대신 이 두 단계 레시피를 따를 수 있습니다.
비용 효율적인 파인튜닝 – CPT는 소량의 데이터로 단일 GPU에서 며칠 동안 실행할 수 있으며, SFT는 수천 개의 병렬 문장만 필요합니다. 이는 많은 NGO나 커뮤니티 그룹이 수집할 수 있는 수준입니다.
전이 가능한 인사이트 – 레이어별 발견은 개발자에게 언어‑특정 지식(임베딩)을 “주입”할 위치와 작업‑특정 헤드를 집중시킬 위치에 대한 힌트를 제공하며, LoRA나 어댑터와 같은 파라미터 효율적 적응 방법에 대한 미래 연구에 도움이 됩니다.
오픈소스 생태계 활성화 – 스크립트와 체크포인트를 공개함으로써, 저자들은 오픈소스 LLM이 소외된 언어를 지원하는 장벽을 낮추고, 책임 있는 AI와 디지털 포용 목표에 부합합니다.

제한 사항 및 향후 연구

데이터 크기 및 다양성 – 티베트어 텍스트 1.2 GB를 사용했음에도 불구하고, 코퍼스는 여전히 편협합니다(대부분 종교 및 공식 분야). 이는 구어체나 특정 도메인 사용 사례에서 성능을 제한할 수 있습니다.
평가 범위 – 이 연구는 중‑티베트 번역에 초점을 맞추었으며, 요약, 질문 응답 등 더 넓은 다운스트림 작업은 아직 테스트되지 않았습니다.
더 큰 모델에 대한 확장성 – 40억 파라미터 모델을 탐색했지만, 실제 파인튜닝 실험은 30억 파라미터 Qwen2.5에 한정되었습니다. 동일한 이득이 100억 또는 700억 모델에서도 유지되는지 여부는 아직 미지수입니다.
교차 언어 드리프트 – 저자들은 CPT 후 다른 언어들의 퍼플렉시티가 약간 상승했음을 언급했으며, 이는 특화와 다언어 유지 사이의 트레이드오프를 시사합니다. 향후 연구에서는 다중 작업 지속 학습으로 이를 해결할 수 있습니다.

핵심 요약: 이 논문은 저자원 언어에 LLM을 적용하기 위한 실용적이고 재현 가능한 로드맵을 제시합니다—이론적 과제를 구체적인 단계로 전환하여 개발자들이 오늘 바로 활용할 수 있게 합니다.

저자

Lifeng Chen
Ryan Lai
Tianming Liu

논문 정보

arXiv ID: 2512.03976v1
분류: cs.CL
출판일: 2025년 12월 3일
PDF: PDF 다운로드

[Paper] 대규모 언어 모델을 저자원 티베트어에 적용하기: 두 단계 지속적 및 지도 학습 파인튜닝 연구

개요

주요 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

보도에 따르면 SoftBank와 Nvidia가 Skild AI에 $14B를 투자 논의 중이며, 이는 가치가 거의 세 배로 상승합니다.

Google의 AI 착용 앱 Doppl, 쇼핑 가능한 디스커버리 피드 추가

Google은 Gemini 앱에 광고를 넣을 ‘계획이 없다’고 말한다

Gemini for Home 업데이트가 일부 서드파티 Google Assistant 스피커에서 이미 작동 중