[논문] 분할 트리를 이용한 토큰화
Source: arXiv - 2605.22705v1
Overview
우리는 Tokenization with Split Trees (ToaST) 라는 서브워드 토크나이제이션 방법을 제안한다. 이 방법은 새로운 재귀 추론 절차 아래에서 압축 효율을 직접 최적화한다. ToaST는 미리 계산된 바이트 n‑gram 빈도를 이용해 각 프리토큰을 완전 이진 트리 형태로 탐욕적으로 분할하며, 어휘 집합과는 무관하게 동작한다. 어휘가 주어지면, 추론 단계에서 각 분할 트리를 재귀적으로 탐색하고 각 경로에서 처음으로 어휘에 포함되는 노드를 출력한다. 어휘 선택 문제는 정수 계획법(Integer Program, IP) 으로 공식화되어, 이 추론 절차 하에서 모든 분할 트리의 토큰 수 총합을 최소화한다. 실제로 선형 계획법(LP) 완화는 거의 정수해에 가깝게 동작하여, 근사적으로 최적에 가까운 어휘를 제공한다. 학습 시간은 분할 트리 수에 대해 경험적으로 2차적으로 증가한다. 영어 텍스트에 대해 ToaST는 어휘 크기가 40,960개 이상일 때 BPE, WordPiece, UnigramLM보다 토큰 수를 11 % 이상 감소시킨다. 이는 해당 토크나이저를 사용하는 모델의 추론 토큰 수를 줄여 실제 컨텍스트 길이를 확장한다. 또한 ToaST는 일반적인 단일 바이트 토큰을 기존 방법보다 덜 사용함으로써 Renyi 효율성을 크게 향상시킨다. 1.5 B 파라미터 언어 모델을 학습한 실험에서는 ToaST가 가장 높은 CORE 점수를 기록했으며, 베이스라인보다 2.6 %–7.6 % 높은 성능을 보였다(세 가지 실험 중 두 가지에서 통계적 유의미). 22개의 개별 과제 중 13개에서 최고 점수를 얻었다.
Key Contributions
이 논문은 다음 분야의 연구를 다룬다:
- cs.CL
Methodology
자세한 방법론은 전체 논문을 참고하시기 바란다.
Practical Implications
본 연구는 cs.CL 분야의 발전에 기여한다.
Authors
- Craig W. Schmidt
- Michael Krumdick
- Adam Wiemerslage
- Seth Ebner
- Varshini Reddy
- Yuval Pinter
- Chris Tanner
Paper Information
- arXiv ID: 2605.22705v1
- Categories: cs.CL
- Published: May 21, 2026
- PDF: Download PDF