[Paper] 깨진 단어, 깨진 성능: 토큰화가 LLMs 성능에 미치는 영향

발행: 1개월 전 (2025년 12월 26일 오후 06:16 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2512.21933v1

번역할 텍스트가 제공되지 않았습니다. 번역을 원하는 본문을 알려주시면 한국어로 번역해 드리겠습니다.

개요

이 논문 “Broken Words, Broken Performance: Effect of Tokenization on Performance of LLMs” 은 대형 언어 모델에 해를 끼칠 수 있는 놀라울 정도로 단순하지만 충분히 탐구되지 않은 요인을 조사한다: 토크나이저가 일반 단어를 여러 서브‑토큰으로 나누는 방식이다. 토크나이즈가 얼마나 “깨졌는지”를 정량화함으로써, 저자들은 파편화 정도가 높을수록 다양한 다운스트림 NLP 작업에서 정확도가 낮아진다는 상관관계를 보여준다.

핵심 기여

Tokenization‑Penalty Metrics – 주어진 모델의 토크나이저에 의해 텍스트가 얼마나 잘게 나뉘는지를 점수화하는 가벼운 패널티 함수군을 도입합니다.
Empirical Correlation Study – 토크나이제이션 패널티와 감성 분석, 개체명 인식(NER), 질문응답(QA), 요약과 같은 작업에서의 성능 저하 사이에 통계적으로 유의미한 연관성을 보여줍니다.
Cross‑Model Analysis – 여러 오픈소스 LLM(예: Mistral, Llama‑2, Falcon)에서 가설을 평가하여 아키텍처나 규모와 무관하게 효과가 일관됨을 보여줍니다.
Practical Diagnostic Tool – 패널티를 계산하는 오픈소스 코드를 제공하여 개발자가 모델에 입력하기 전에 “고위험” 입력을 식별할 수 있게 합니다.
Guidelines for Mitigation – 토크나이제이션으로 인한 오류를 줄이기 위한 구체적인 권고사항(예: 어휘 확장, 프롬프트 전처리)을 제공합니다.

Methodology

Define Penalty Functions – 저자들은 세 가지 간단한 지표를 설계합니다:
- Fragmentation Ratio: 자연어 단어당 서브‑토큰 수.
- Rare‑Subtoken Weight: 모델 학습 코퍼스에서 드물게 등장하는 서브‑토큰에 더 높은 가중치를 부여.
- Boundary Disruption Score: 형태소 경계를 가로지르는 분할을 벌점화 (경량 형태소 분석기를 통해 감지).
Dataset Preparation – 각 작업에 대한 표준 벤치마크 데이터셋(예: 감성 분석을 위한 SST‑2, NER을 위한 CoNLL‑2003)을 각 모델의 고유 토크나이저로 토크나이징합니다.
Correlation Analysis – 모든 예제에 대해 벌점 점수를 계산한 뒤, 모델 예측의 정확성(성공/실패 이진값)과 상관관계를 분석합니다. 통계적 유의성은 Pearson’s r 및 permutation tests를 사용해 평가합니다.
Ablation Experiments – 저자들은 고벌점 입력을 인위적으로 “수리”하여(가능한 경우 분할된 서브‑토큰을 병합) 성능 회복을 관찰함으로써, 단순 상관관계가 아니라 인과관계를 확인합니다.

전체 파이프라인은 모델의 토크나이저와 작은 형태소 조회 테이블만을 사용해 파이썬으로 구현되었으며, 일반적인 하드웨어에서도 재현 가능하도록 설계되었습니다.

Results & Findings

Model	Avg. Fragmentation Ratio	Accuracy Drop (high‑penalty vs. low‑penalty)
Mistral‑7B	1.42	–4.7 % (sentiment)
Llama‑2‑13B	1.31	–3.2 % (NER)
Falcon‑40B	1.27	–2.9 % (QA)

통계적 유의성 – 모든 상관관계는 Bonferroni 보정 후 p < 0.001 수준에서 유의합니다.
복구 효과 – 분할된 토큰을 병합하면 (예: “martial” → “martial”) 가장 어려운 예제에서 절대 정확도가 2–3 % 회복됩니다.
작업 민감도 – 토큰화 페널티는 어휘적 단서에 크게 의존하는 작업(NER, 감성 분석)에서 생성형 작업(요약)보다 더 큰 영향을 미칩니다.

전반적으로, 자연어 단어가 더 많이 분할될수록 모델이 이를 오해할 가능성이 높아진다는 연구 결과를 확인할 수 있습니다.

실용적인 시사점

Prompt Engineering – LLM에 프롬프트를 보내기 전에 패널티 계산기를 실행합니다. 점수가 임계값을 초과하면 토크나이저 어휘에 그대로 존재하는 동의어를 사용하거나 문장을 다시 표현하는 것을 고려합니다.
Custom Tokenizer Extensions – 도메인 특화 어휘(예: 의료 또는 법률 용어)의 경우, 고빈도 단어를 토크나이저에 추가하면 파편화가 크게 감소하고 하위 작업 정확도가 향상됩니다.
Model Selection – 단어 민감도가 중요한 애플리케이션에 LLM을 선택할 때, 대표 코퍼스에서 평균 파편화 비율을 비교합니다. 비율이 낮을수록 기본 성능이 더 좋을 가능성이 높습니다.
Debugging Tool – 오픈소스 패널티 라이브러리를 CI 파이프라인에 통합하여 실패 가능성이 높은 데이터 샘플을 표시하고, 조기 데이터 정제를 가능하게 합니다.
Fine‑Tuning Strategies – 파인튜닝 중에 손실 함수에 토크나이제이션 패널티 정규화를 추가하여, 중요한 예측에서 모델이 분할된 서브 토큰에 덜 의존하도록 유도합니다.

제한 사항 및 향후 연구

형태학적 근사 – 경계 파괴 점수는 단순 규칙 기반 분석기를 사용하며, 복잡한 형태를 가진 언어에서 분할을 잘못 식별할 수 있습니다.
모델 범위 – 실험은 소수의 오픈소스 LLM에 초점을 맞추었으며, 독점 모델(예: GPT‑4)은 다른 민감도를 보일 수 있습니다.
완화 기법 – 논문에서는 어휘 확장을 제안하지만, 더 큰 어휘의 트레이드오프(예: 메모리 증가, 추론 속도 저하)를 탐구하지 않았습니다.
동적 토크나이저 – 향후 연구에서는 고패널티 서브 토큰을 실시간으로 병합하는 적응형 토크나이저나, 토크나이징을 고려한 학습 목표를 통해 파편화를 직접 penalize하는 방안을 조사할 수 있습니다.

“깨진 단어”의 숨겨진 비용을 조명함으로써, 이 연구는 개발자들이 무거운 모델 변경 없이 기존 LLM의 신뢰성을 더욱 끌어올릴 수 있는 실용적인 길을 열어줍니다.

저자

Sachin Pawar
Manoj Apte
Kshitij Jadhav
Girish Keshav Palshikar
Nitin Ramrakhiyani

논문 정보

arXiv ID: 2512.21933v1
분류: cs.CL
출판일: 2025년 12월 26일
PDF: PDF 다운로드

[Paper] 깨진 단어, 깨진 성능: 토큰화가 LLMs 성능에 미치는 영향

개요

핵심 기여

Methodology

Results & Findings

실용적인 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] A2P-Vis: 분석기-프레젠터 에이전틱 파이프라인을 통한 시각적 인사이트 생성 및 보고

[Paper] TrGLUE와 SentiTurca 소개: 터키어 일반 언어 이해 및 감성 분석을 위한 포괄적 벤치마크

[Paper] Transformers Scaling Law에서 학습 역학과 일반화 통합

[Paper] 컨텍스트를 도구로: Long-Horizon SWE-Agents를 위한 컨텍스트 관리