[Paper] 오래된 토크나이저에 새로운 단어 가르치기: 사전 학습 모델을 위한 효율적인 토크나이저 적응
Source: arXiv - 2512.03989v1
Overview
이 논문은 매우 실용적인 문제에 접근합니다: 새로운 도메인이나 언어로 이동할 때 대형 사전 학습 언어 모델의 토크나이저를 어떻게 적응시킬 것인가. 전체 모델을 재학습하는 대신, 저자들은 토크나이저에 대한 소규모이면서도 목표 지향적인 변경—효율적인 확장과 사용되지 않는 토큰의 가지치기—만으로도 성능을 향상시키고 낭비를 줄일 수 있음을 보여줍니다. 이 과정에서 원본 모델은 그대로 유지됩니다.
Key Contributions
- Continued BPE training: 도메인‑특화 데이터에 대해 바이트‑페어‑인코딩 병합 과정을 “계속” 진행하는 방법으로, 단순 어휘 확장 시 발생하는 죽은 토큰(dead tokens)의 급증을 방지합니다.
- Leaf‑based vocabulary pruning: BPE 트리의 잎 노드(가장 작은 서브‑토큰)를 안전하게 제거하는 알고리즘으로, 어휘 크기를 줄이면서도 다운스트림 정확도에 영향을 주지 않습니다.
- Comprehensive evaluation: 여러 언어(영어, 러시아어, 핀란드어 등)와 모델군(BERT, RoBERTa, XLM‑R)에 걸쳐 토크나이징 효율성과 다운스트림 작업 점수에서 일관된 향상을 입증합니다.
- Open‑source toolkit: 몇 줄의 코드만으로 토크나이저를 확장하거나 가지치기할 수 있는 파이썬 패키지를 공개합니다.
Methodology
-
Baseline tokenizer extension – 일반적인 절차: 새로운 코퍼스에 대해 새 BPE 토크나이저를 학습한 뒤, 새 토큰을 기존 어휘에 추가합니다. 기존 토크나이저가 대부분의 서브‑워드를 이미 포함하고 있기 때문에 실제로는 거의 사용되지 않는 토큰이 많이 생성됩니다.
-
Continued BPE training – 처음부터 시작하는 대신, 저자들은 원본 BPE 병합 작업을 새로운 데이터에 대해 재개합니다. 구체적인 단계:
- 원본 BPE 병합 테이블과 어휘를 로드합니다.
- 기존 토크나이저로 새로운 도메인 코퍼스를 처리하여 어떤 병합이 가장 유익할지 통계를 수집합니다.
- 추가 병합 단계(예: 5 k–20 k 병합)를 수행해 실제로 새로운 형태소나 도메인 전문 용어를 포착하는 토큰을 생성합니다.
-
Leaf‑based pruning – BPE 병합 트리를 계층 구조로 시각화하면, 잎 노드는 가장 작은 서브‑토큰이 됩니다. 가지치기 알고리즘은 다음과 같습니다:
- 검증 세트에서 토큰 사용량을 계산합니다.
- 해당 잎 토큰을 제거해도 원본 텍스트를 재구성하는 데 필요한 전체 병합 수가 증가하지 않는 경우(즉, 상위 토큰이 완전히 커버하는 경우) 이를 삭제합니다.
- 어휘를 재인덱싱하여 모델의 임베딩 행렬 크기를 그대로 유지하거나 선택적으로 축소합니다.
-
Evaluation pipeline – 적응된 토크나이저를 사전 학습된 모델에 그대로 적용하고 가중치를 미세 조정하지 않은 상태에서 표준 벤치마크(예: GLUE, XNLI, 도메인‑특화 분류 작업)로 평가합니다.
Results & Findings
| 설정 | 토크나이저 크기 | 실제 사용된 새 토큰 비율 | 다운스트림 정확도 변화 |
|---|---|---|---|
| Naïve extension (10 k new tokens) | +10 k | ~12 % | –0.3 % (GLUE 평균) |
| Continued BPE (10 k new merges) | +10 k | ~68 % | +0.6 % (GLUE 평균) |
| Continued BPE + leaf pruning (net –2 k) | –2 k (vs. original) | N/A | +0.5 % (GLUE 평균) |
| Multilingual XLM‑R (Russian domain) | +5 k → –1 k after pruning | 73 % | +1.2 % (XNLI RU) |
- 높은 활용도: Continued BPE는 추가된 어휘를 훨씬 더 유용하게 만들어 (5‑6배 수준) 토큰 사용률을 크게 높입니다.
- 성능 저하 없음: 가지치기를 통해 원래 어휘의 약 20 %를 제거해도 측정 가능한 손실이 없으며, 토큰 파편화 감소로 인해 약간의 성능 향상이 나타나기도 합니다.
- 속도·메모리: 더 작고 정돈된 어휘는 토크나이징 속도를 약 3 % 가속시키고, 임베딩 조회 수 감소로 GPU 메모리 사용량을 약간 줄여줍니다.
Practical Implications
-
도메인 적응 비용 절감 – 법률 문서, 의료 기록, 코드 스니펫 등 특수 코퍼스에 기존 BERT‑계열 모델을 재활용하려면 전체 모델 재학습 대신 빠른 Continued‑BPE 단계만 수행하면 됩니다.
-
다국어 확장 – 저자원 언어의 경우, 수천 개의 병합만으로 다국어 토크나이저에 언어‑특화 형태소를 포착하면서 공유 어휘 규모를 크게 늘리지 않을 수 있습니다.
-
메모리 제한이 있는 배포 – 잎 가지치기를 통해 사용되지 않는 임베딩을 제거하면 엣지 디바이스나 서버리스 추론 환경에서 메가바이트 단위의 절감 효과를 얻을 수 있습니다.
-
툴링 통합 – 저자들의 오픈소스 패키지는 Hugging Face
tokenizers라이브러리와 바로 연결되므로, 데이터 파이프라인에adapt_tokenizer(model, new_corpus, merges=8000)와 같이 한 줄만 추가하면 됩니다.
Limitations & Future Work
- 원본 BPE 품질 의존 – 기본 토크나이저가 너무 작은 어휘 등으로 품질이 낮을 경우, Continued BPE가 할 수 있는 것이 제한적이며 저자들은 매우 낮은 용량 어휘에 대해 수익 감소 현상을 보고했습니다.
- 정적 임베딩 – 본 연구는 모델 가중치를 고정한 채 진행했으며, 토크나이저 적응과 가벼운 임베딩 미세 조정을 결합하면 추가적인 향상이 가능할 것으로 예상됩니다. 이는 향후 연구 과제로 남겨두었습니다.
- 평가 범위 – 실험은 주로 분류 벤치마크에 초점을 맞췄으며, 요약이나 번역 같은 생성 작업은 토큰 변화에 따라 다른 반응을 보일 수 있어 별도 연구가 필요합니다.
- 자동화 – 추가 병합 수나 가지치기 임계값을 현재는 수동으로 설정하고 있는데, 자동 종료 기준을 도입하면 더욱 실용적인 시스템이 될 것입니다.
Authors
- Taido Purason
- Pavel Chizhov
- Ivan P. Yamshchikov
- Mark Fishel
Paper Information
- arXiv ID: 2512.03989v1
- Categories: cs.CL
- Published: December 3, 2025
- PDF: Download PDF