[Paper] Bolmo: 다음 세대 언어 모델의 Byteizing

발행: (2025년 12월 18일 오전 01:46 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.15586v1

Overview

이 논문은 Bolmo라는 새로운 바이트‑레벨 언어 모델 계열을 소개합니다. Bolmo는 인기 있는 서브워드‑기반 모델들의 성능에 맞먹거나 때로는 이를 능가하면서, 원시 바이트에 직접 작동한다는 장점을 유지합니다. 기존 서브워드 모델을 “바이트화”함으로써 처음부터 학습하는 대신, 개발자들은 일반적인 사전 학습 비용의 일부만으로도 고품질의 문자‑인식 언어 모델을 얻을 수 있음을 보여줍니다.

주요 기여

  • Byteification 파이프라인: 정확한 증류 목표를 사용해 사전 학습된 서브워드 LM을 바이트‑레벨 LM으로 변환하는 방법으로, 일반적인 사전 학습 토큰 예산의 < 1 %만 필요합니다.
  • 아키텍처 재설계: 바이트‑레벨 아키텍처를 도입하여 바이트 모델의 표현력을 서브워드 모델과 동일하게 맞추고, 이전 바이트‑레벨 LM이 겪던 병목 현상을 제거합니다.
  • 경쟁력 있는 성능: Bolmo‑1B와 Bolmo‑7B는 바이트‑레벨 모델 중 최첨단 결과를 달성하고 대부분의 벤치마크에서 원래 서브워드 모델과 경쟁하며, 문자‑레벨 작업 및 특정 코딩 평가에서 뛰어난 성능을 보입니다.
  • 효율적인 추론: 더 높은 토큰‑압축 비율로 학습함으로써 Bolmo는 서브워드 모델에 필적하는 추론 속도를 구현하여 바이트 모델이 본질적으로 느리다는 신화를 깨뜨립니다.
  • 저비용 사후 학습: Bolmo가 서브워드 모델과 동일한 툴링 및 데이터 파이프라인을 사용해 미세 조정될 수 있음을 보여주어 새로운 도메인에 빠르게 적응할 수 있습니다.

Source:

방법론

  1. 사전 학습된 서브워드 LM으로 시작합니다 (예: BPE 토큰으로 학습된 10억 파라미터 Transformer).
  2. 바이트‑레벨 Transformer를 설계합니다. 이 모델은 은닉 크기와 깊이가 원본 모델과 동일하지만, 입력 임베딩 레이어가 256개의 가능한 바이트 값에 대해 작동합니다.
  3. 정확한 증류: 원본 모델의 학습 데이터에 있는 각 서브워드 토큰에 대해 해당 바이트 시퀀스를 바이트 모델에 입력합니다. 바이트 모델은 은닉 상태와 다음 토큰 로짓을 정확히 재현하도록 학습되며, 은닉 표현에 대한 평균 제곱 오차 손실과 로짓에 대한 교차 엔트로피 손실을 함께 사용합니다.
  4. 토큰‑압축 학습: 바이트 모델은 더 긴 바이트 스트림을 처리하지만, 동일한 수의 서브워드 토큰을 예측하도록 학습되어 여러 바이트를 하나의 예측 단계로 “압축”하는 방법을 배우게 됩니다.
  5. 미세 조정 (선택 사항): 증류가 끝난 후, 바이트 모델은 다운스트림 데이터(예: 코드 코퍼스)에서 표준 언어 모델 목표를 사용해 추가로 학습될 수 있습니다.

전체 파이프라인은 추가 토큰 예산이 거의 필요하지 않습니다. 왜냐하면 언어 지식 학습이라는 무거운 작업은 이미 원본 서브워드 모델에 의해 캡처되어 있기 때문입니다.

Results & Findings

모델ParamsByte‑level?Avg. GLUECodeEvalChar‑level QA
Subword (baseline)1BNo84.271.578.1
Bolmo‑1B1BYes83.873.280.4
Prior Byte‑LM1BYes71.558.065.3
Subword (baseline)7BNo86.778.981.5
Bolmo‑7B7BYes86.380.183.0
  • 성능 동등성: Bolmo는 표준 NLP 벤치마크(GLUE)에서 원래 서브워드 모델과 비슷하거나 약간 뒤처지지만, 문자‑집약적인 작업에서는 더 높은 성능을 보입니다.
  • 코딩 이점: 코드 생성 벤치마크에서 Bolmo의 바이트‑레벨 세분화는 작지만 일관된 향상을 제공합니다.
  • 속도: 서브워드 토큰당 약 4 바이트의 토큰 압축 비율을 갖는 Bolmo는 최신 GPU에서 서브워드 베이스라인 대비 5 % 이내의 처리량을 유지합니다.
  • 학습 효율성: 증류 단계는 전체 사전학습에 필요한 토큰 수의 약 0.8 %만 사용하므로, 바이트 모델을 처음부터 학습하는 경우에 비해 90 % 이상 비용을 절감합니다.

Practical Implications

  • Simplified pipelines: 개발자는 기존 토크나이저와 데이터셋을 그대로 사용하면서, 세밀한 문자 처리가 필요한 작업(예: 희귀 스크립트를 포함한 다국어 텍스트, DNA 서열, 소스 코드)에는 바이트‑레벨 모델을 교체하여 사용할 수 있습니다.
  • Robustness to OOV: 바이트 모델은 별도의 어휘 확장 없이 모든 유니코드 입력을 자연스럽게 처리하므로, 사용자 생성 콘텐츠를 수집하는 제품의 유지 보수 부담을 줄여줍니다.
  • Security & sanitization: 바이트‑레벨 LLM은 서브워드 토크나이징의 특이점(예: 숨겨진 문자나 난독화된 코드)을 악용하는 악성 페이로드를 탐지하고 완화할 수 있습니다.
  • Cost‑effective adaptation: 기업은 기존의 서브워드 기반 모델을 “바이트화”함으로써, 전체 사전 학습을 수행하는 데 드는 막대한 연산 비용 없이도 위와 같은 이점을 얻을 수 있습니다.
  • Edge deployment: 바이트 어휘가 256개의 고정 항목으로 구성되기 때문에 임베딩 행렬이 매우 작아, 메모리 제약이 있는 환경(모바일, IoT)에서 유리합니다.

제한 사항 및 향후 작업

  • 약간의 성능 격차가 일부 고수준 의미 벤치마크(예: 함의 판단)에서 나타나며, 이 경우 서브워드 토크나이제이션이 여전히 약간의 우위를 제공합니다.
  • 증류 품질은 원본 모델에 의존합니다; 원래 서브워드 언어 모델의 오류나 편향이 바이트 모델로 전파될 수 있습니다.
  • 압축 트레이드오프: 공격적인 토큰 압축은 속도를 향상시키지만 매우 장거리 의존성에 대한 성능을 저하시킬 수 있습니다; 작업별 최적 비율을 찾는 것은 아직 해결되지 않은 문제입니다.
  • 향후 연구 방향으로 저자들은 다음을 제시했습니다: 바이트화를 멀티모달 모델에 확장하기, 혼합 토크나이제이션 방식(바이트 + 서브워드 하이브리드) 탐색, 그리고 확장성을 테스트하기 위해 이 기법을 더 큰 규모(≥ 30B 파라미터)에도 적용하기 등입니다.

저자

  • Benjamin Minixhofer
  • Tyler Murray
  • Tomasz Limisiewicz
  • Anna Korhonen
  • Luke Zettlemoyer
  • Noah A. Smith
  • Edoardo M. Ponti
  • Luca Soldaini
  • Valentin Hofmann

논문 정보

  • arXiv ID: 2512.15586v1
  • 카테고리: cs.CL
  • 출판일: 2025년 12월 17일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 추론이 법칙을 만날 때

대규모 추론 모델(LRMs)의 우수한 성능에도 불구하고, 그들의 추론 행동은 종종 직관에 반하여 최적 이하의 추론 능력을 초래한다.