[Paper] 오래된 토크나이저에 새로운 단어 가르치기: 사전 학습 모델을 위한 효율적인 토크나이저 적응

발행: (2025년 12월 4일 오전 02:20 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.03989v1

Overview

이 논문은 매우 실용적인 문제에 접근합니다: 새로운 도메인이나 언어로 이동할 때 대형 사전 학습 언어 모델의 토크나이저를 어떻게 적응시킬 것인가. 전체 모델을 재학습하는 대신, 저자들은 토크나이저에 대한 소규모이면서도 목표 지향적인 변경—효율적인 확장과 사용되지 않는 토큰의 가지치기—만으로도 성능을 향상시키고 낭비를 줄일 수 있음을 보여줍니다. 이 과정에서 원본 모델은 그대로 유지됩니다.

Key Contributions

  • Continued BPE training: 도메인‑특화 데이터에 대해 바이트‑페어‑인코딩 병합 과정을 “계속” 진행하는 방법으로, 단순 어휘 확장 시 발생하는 죽은 토큰(dead tokens)의 급증을 방지합니다.
  • Leaf‑based vocabulary pruning: BPE 트리의 잎 노드(가장 작은 서브‑토큰)를 안전하게 제거하는 알고리즘으로, 어휘 크기를 줄이면서도 다운스트림 정확도에 영향을 주지 않습니다.
  • Comprehensive evaluation: 여러 언어(영어, 러시아어, 핀란드어 등)와 모델군(BERT, RoBERTa, XLM‑R)에 걸쳐 토크나이징 효율성과 다운스트림 작업 점수에서 일관된 향상을 입증합니다.
  • Open‑source toolkit: 몇 줄의 코드만으로 토크나이저를 확장하거나 가지치기할 수 있는 파이썬 패키지를 공개합니다.

Methodology

  1. Baseline tokenizer extension – 일반적인 절차: 새로운 코퍼스에 대해 새 BPE 토크나이저를 학습한 뒤, 새 토큰을 기존 어휘에 추가합니다. 기존 토크나이저가 대부분의 서브‑워드를 이미 포함하고 있기 때문에 실제로는 거의 사용되지 않는 토큰이 많이 생성됩니다.

  2. Continued BPE training – 처음부터 시작하는 대신, 저자들은 원본 BPE 병합 작업을 새로운 데이터에 대해 재개합니다. 구체적인 단계:

    • 원본 BPE 병합 테이블과 어휘를 로드합니다.
    • 기존 토크나이저로 새로운 도메인 코퍼스를 처리하여 어떤 병합이 가장 유익할지 통계를 수집합니다.
    • 추가 병합 단계(예: 5 k–20 k 병합)를 수행해 실제로 새로운 형태소나 도메인 전문 용어를 포착하는 토큰을 생성합니다.
  3. Leaf‑based pruning – BPE 병합 트리를 계층 구조로 시각화하면, 잎 노드는 가장 작은 서브‑토큰이 됩니다. 가지치기 알고리즘은 다음과 같습니다:

    • 검증 세트에서 토큰 사용량을 계산합니다.
    • 해당 잎 토큰을 제거해도 원본 텍스트를 재구성하는 데 필요한 전체 병합 수가 증가하지 않는 경우(즉, 상위 토큰이 완전히 커버하는 경우) 이를 삭제합니다.
    • 어휘를 재인덱싱하여 모델의 임베딩 행렬 크기를 그대로 유지하거나 선택적으로 축소합니다.
  4. Evaluation pipeline – 적응된 토크나이저를 사전 학습된 모델에 그대로 적용하고 가중치를 미세 조정하지 않은 상태에서 표준 벤치마크(예: GLUE, XNLI, 도메인‑특화 분류 작업)로 평가합니다.

Results & Findings

설정토크나이저 크기실제 사용된 새 토큰 비율다운스트림 정확도 변화
Naïve extension (10 k new tokens)+10 k~12 %–0.3 % (GLUE 평균)
Continued BPE (10 k new merges)+10 k~68 %+0.6 % (GLUE 평균)
Continued BPE + leaf pruning (net –2 k)–2 k (vs. original)N/A+0.5 % (GLUE 평균)
Multilingual XLM‑R (Russian domain)+5 k → –1 k after pruning73 %+1.2 % (XNLI RU)
  • 높은 활용도: Continued BPE는 추가된 어휘를 훨씬 더 유용하게 만들어 (5‑6배 수준) 토큰 사용률을 크게 높입니다.
  • 성능 저하 없음: 가지치기를 통해 원래 어휘의 약 20 %를 제거해도 측정 가능한 손실이 없으며, 토큰 파편화 감소로 인해 약간의 성능 향상이 나타나기도 합니다.
  • 속도·메모리: 더 작고 정돈된 어휘는 토크나이징 속도를 약 3 % 가속시키고, 임베딩 조회 수 감소로 GPU 메모리 사용량을 약간 줄여줍니다.

Practical Implications

  • 도메인 적응 비용 절감 – 법률 문서, 의료 기록, 코드 스니펫 등 특수 코퍼스에 기존 BERT‑계열 모델을 재활용하려면 전체 모델 재학습 대신 빠른 Continued‑BPE 단계만 수행하면 됩니다.

  • 다국어 확장 – 저자원 언어의 경우, 수천 개의 병합만으로 다국어 토크나이저에 언어‑특화 형태소를 포착하면서 공유 어휘 규모를 크게 늘리지 않을 수 있습니다.

  • 메모리 제한이 있는 배포 – 잎 가지치기를 통해 사용되지 않는 임베딩을 제거하면 엣지 디바이스나 서버리스 추론 환경에서 메가바이트 단위의 절감 효과를 얻을 수 있습니다.

  • 툴링 통합 – 저자들의 오픈소스 패키지는 Hugging Face tokenizers 라이브러리와 바로 연결되므로, 데이터 파이프라인에

    adapt_tokenizer(model, new_corpus, merges=8000)

    와 같이 한 줄만 추가하면 됩니다.

Limitations & Future Work

  • 원본 BPE 품질 의존 – 기본 토크나이저가 너무 작은 어휘 등으로 품질이 낮을 경우, Continued BPE가 할 수 있는 것이 제한적이며 저자들은 매우 낮은 용량 어휘에 대해 수익 감소 현상을 보고했습니다.
  • 정적 임베딩 – 본 연구는 모델 가중치를 고정한 채 진행했으며, 토크나이저 적응과 가벼운 임베딩 미세 조정을 결합하면 추가적인 향상이 가능할 것으로 예상됩니다. 이는 향후 연구 과제로 남겨두었습니다.
  • 평가 범위 – 실험은 주로 분류 벤치마크에 초점을 맞췄으며, 요약이나 번역 같은 생성 작업은 토큰 변화에 따라 다른 반응을 보일 수 있어 별도 연구가 필요합니다.
  • 자동화 – 추가 병합 수나 가지치기 임계값을 현재는 수동으로 설정하고 있는데, 자동 종료 기준을 도입하면 더욱 실용적인 시스템이 될 것입니다.

Authors

  • Taido Purason
  • Pavel Chizhov
  • Ivan P. Yamshchikov
  • Mark Fishel

Paper Information

  • arXiv ID: 2512.03989v1
  • Categories: cs.CL
  • Published: December 3, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Multi-LLM 협업을 통한 약물 추천

보건 의료가 확장 가능하고 신뢰할 수 있는 clinical decision support를 위해 AI를 점점 더 활용함에 따라, 모델 추론의 신뢰성을 보장하는 것이 여전히 중요한 과제로 남아 있습니다.