[논문] 분할 트리를 이용한 토큰화

발행: 2주 전 (2026년 5월 22일 AM 01:46 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2605.22705v1

Overview

우리는 Tokenization with Split Trees (ToaST) 라는 서브워드 토크나이제이션 방법을 제안한다. 이 방법은 새로운 재귀 추론 절차 아래에서 압축 효율을 직접 최적화한다. ToaST는 미리 계산된 바이트 n‑gram 빈도를 이용해 각 프리토큰을 완전 이진 트리 형태로 탐욕적으로 분할하며, 어휘 집합과는 무관하게 동작한다. 어휘가 주어지면, 추론 단계에서 각 분할 트리를 재귀적으로 탐색하고 각 경로에서 처음으로 어휘에 포함되는 노드를 출력한다. 어휘 선택 문제는 정수 계획법(Integer Program, IP) 으로 공식화되어, 이 추론 절차 하에서 모든 분할 트리의 토큰 수 총합을 최소화한다. 실제로 선형 계획법(LP) 완화는 거의 정수해에 가깝게 동작하여, 근사적으로 최적에 가까운 어휘를 제공한다. 학습 시간은 분할 트리 수에 대해 경험적으로 2차적으로 증가한다. 영어 텍스트에 대해 ToaST는 어휘 크기가 40,960개 이상일 때 BPE, WordPiece, UnigramLM보다 토큰 수를 11 % 이상 감소시킨다. 이는 해당 토크나이저를 사용하는 모델의 추론 토큰 수를 줄여 실제 컨텍스트 길이를 확장한다. 또한 ToaST는 일반적인 단일 바이트 토큰을 기존 방법보다 덜 사용함으로써 Renyi 효율성을 크게 향상시킨다. 1.5 B 파라미터 언어 모델을 학습한 실험에서는 ToaST가 가장 높은 CORE 점수를 기록했으며, 베이스라인보다 2.6 %–7.6 % 높은 성능을 보였다(세 가지 실험 중 두 가지에서 통계적 유의미). 22개의 개별 과제 중 13개에서 최고 점수를 얻었다.

Key Contributions

이 논문은 다음 분야의 연구를 다룬다:

cs.CL

Methodology

자세한 방법론은 전체 논문을 참고하시기 바란다.

Practical Implications

본 연구는 cs.CL 분야의 발전에 기여한다.

Authors

Craig W. Schmidt
Michael Krumdick
Adam Wiemerslage
Seth Ebner
Varshini Reddy
Yuval Pinter
Chris Tanner

Paper Information

arXiv ID: 2605.22705v1
Categories: cs.CL
Published: May 21, 2026
PDF: Download PDF

[논문] 분할 트리를 이용한 토큰화

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

[Paper] SkillOpt: 자기 진화형 에이전트 스킬을 위한 실행 전략

[Paper] ETCHR: 편집을 통한 명확화 및 추론 활용

[Paper] 데이터 제약 하에서 Lexical Interventions를 통한 Multilingual Knowledge Transfer

[Paper] 강력한 Teacher는 필요 없을까? LLM 사전학습에서의 Distillation