[Paper] 빠른 Byte Latent Transformer

발행: 3일 전 (2026년 5월 9일 AM 02:35 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2605.08044v1

Overview

Fast Byte Latent Transformer (BLT) 논문은 바이트‑레벨 언어 모델에서 오랫동안 존재해 온 병목 현상을 해결합니다: 텍스트를 한 바이트씩 생성하는 것은 매우 느립니다. 저자들은 영리한 학습 트릭과 추측 디코딩 전략을 도입하여, 전통적인 토큰‑기반 트랜스포머와 품질을 맞추면서도 여러 바이트를 병렬로 생성할 수 있는 모델군을 제시합니다. 이는 빠르고 메모리 효율적인, 어휘‑프리 언어 모델을 실용적으로 활용할 수 있는 길을 열어줍니다.

주요 기여

BLT‑Diffusion (BLT‑D): 일반적인 다음 바이트 예측에 블록‑단위 확산 손실을 추가하는 새로운 학습 목표로, 바이트 “패치”를 병렬로 생성할 수 있게 함.
BLT Self‑Speculation (BLT‑S): 가벼운 로컬 디코더가 정상 윈도우를 넘어 바이트를 초안으로 작성하고, 전체 모델을 한 번만 통과시켜 초안을 검증하는 추측 디코딩 방식.
BLT Diffusion + Verification (BLT‑DV): 확산 기반 병렬 생성과 자동 회귀 검증 단계를 결합해 높은 충실도를 달성.
Memory‑Bandwidth Savings: 세 변형 모두 추론 시 기존 BLT 대비 메모리‑대역폭 사용량을 50 % 이상 절감.
Comprehensive Empirical Evaluation: 속도 향상이 퍼플렉시티나 다운스트림 작업 성능 저하 없이 이루어짐을 입증.

방법론

Baseline Byte Latent Transformer – 서브워드 토크나이저 없이 다음 바이트를 직접 예측하는 트랜스포머.
Diffusion Objective – 학습 중에 각 바이트 블록이 손상(예: 무작위 마스킹)되고 모델은 원래 블록을 복원하도록 학습한다. 이 보조 손실은 네트워크가 한 번에 전체 청크를 “채우는” 방법을 가르친다.
Parallel Decoding – 추론 시 모델은 먼저 전체 바이트 블록을 제안하는 디퓨전 단계를 실행하고, 필요에 따라 이를 정제한다. 전체 블록이 한 번의 순전파로 생성되므로 시퀀스를 생성하는 데 필요한 패스 수가 크게 감소한다.
Speculative Decoding (BLT‑S) – 작은 “로컬” 디코더가 빠르게 실행되어 현재 블록을 넘어 다음 바이트를 추측한다. 전체 BLT 모델은 하나의 검증 패스로 추측을 확인하고 잘못된 바이트를 버린다.
Verification Layer (BLT‑DV) – 디퓨전 기반 생성 후, 가벼운 자기회귀 패스가 블록을 검증하여 오류를 수정하면서도 대부분의 속도 이점을 유지한다.

전체 파이프라인은 의도적으로 모듈식으로 설계되어, 지연 시간과 품질 사이의 트레이드오프에 따라 세 가지 가속 기법 중 원하는 것을 교체하여 사용할 수 있다.

결과 및 발견

모델	생성 속도 (베이스라인 대비 ×)	당혹도 (WikiText‑103 기준)	메모리 대역폭
BLT (baseline)	1.0×	12.3	1.0
BLT‑D	2.8×	12.5 (≈ +0.2)	0.48×
BLT‑S	2.2×	12.4 (≈ +0.1)	0.55×
BLT‑DV	2.5×	12.4 (≈ +0.1)	0.52×

속도: 모든 변형은 토큰당 전방 패스 수를 2–3× 줄여, 많은 인터랙티브 애플리케이션에서 실시간 생성을 가능하게 합니다.
품질: 확산 기반 접근법은 당혹도 증가가 거의 없으며, 추측 검증이 손실된 충실도의 대부분을 복원합니다.
자원 효율성: 측정된 메모리 대역폭(현대 GPU/TPU에서 주요 비용)이 절반 이상 감소하여, 모델을 엣지 디바이스나 대규모 서비스에 매력적으로 만듭니다.

실용적인 시사점

Vocabulary‑Free Deployment – 언어별 토크나이저를 유지할 필요가 없으며, 동일한 모델을 여러 언어와 코드베이스에 걸쳐 배포할 수 있다.
Low‑Latency APIs – 즉시 텍스트 완성이 필요한 서비스(예: IDE 어시스턴트, 챗봇)에서 이제 바이트‑레벨 모델을 사용해 기존의 지연 없이 운영할 수 있다.
Edge & Mobile – 감소된 대역폭과 병렬 블록 생성은 메모리 대역폭이 제한된 디바이스에 적합하여, 온‑디바이스 언어 이해의 가능성을 열어준다.
Simplified Pipeline – 서브워드 토크나이징을 없앰으로써 데이터 전처리 파이프라인이 더 간단하고 오류 가능성이 줄어들며, 특히 혼합 스크립트나 잡음이 많은 입력에 유리하다.
Future Model Scaling – 확산 목표는 모델 크기와 직교하므로, 더 큰 BLT‑D 모델도 동일한 속도 이점을 물려받아 대규모 언어 모델을 더 빠르게 구현할 수 있다.

제한 사항 및 향후 작업

Block Size Trade‑off – 더 큰 디퓨전 블록은 속도를 높이지만 검증 단계가 생략되면 품질이 저하될 수 있습니다; 최적의 균형점을 찾으려면 작업별 튜닝이 필요합니다.
Speculative Overhead – BLT‑S의 로컬 디코더는 추가 파라미터와 학습 복잡성을 증가시킵니다; 단일 순전파가 이미 저렴한 하드웨어에서는 그 이점이 감소합니다.
Evaluation Scope – 실험은 영어 텍스트에 초점을 맞추고 있습니다; 다국어 혹은 코드 생성 시나리오는 새로운 과제를 드러낼 수 있습니다(예: 바이트 수준 패턴이 스크립트마다 다름).
Theoretical Understanding – 디퓨전 손실이 표현 학습에 미치는 효과는 실험적으로 유망하지만 아직 완전히 설명되지 않았습니다; 보다 깊은 분석이 더 나은 목표 설계에 도움을 줄 수 있습니다.

저자들은 적응형 블록 크기 조정, 디퓨전과 어텐션 메커니즘의 tighter integration, 그리고 프레임워크를 멀티모달 바이트 스트림(예: 원시 오디오 또는 바이너리 파일)으로 확장하는 것을 탐구할 것을 제안합니다.

저자

Julie Kallini
Artidoro Pagnoni
Tomasz Limisiewicz
Gargi Ghosh
Luke Zettlemoyer
Christopher Potts
Xiaochuang Han
Srinivasan Iyer

논문 정보

arXiv ID: 2605.08044v1
분류: cs.CL, cs.AI, cs.LG
발표일: 2026년 5월 8일
PDF: PDF 다운로드

[Paper] 빠른 Byte Latent Transformer

Overview

주요 기여

방법론

결과 및 발견

실용적인 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 기억의 저주: 확장된 회상이 LLM 에이전트의 협력적 의도를 침식한다

[Paper] CA-SQL: 복잡도 인식 추론 시간 Reasoning for Text-to-SQL via 탐색 및 Compute Budget Allocation

[Paper] Position: Mechanistic Interpretability은 Causal Claims를 위한 Identification Assumptions를 공개해야 한다

[Paper] Tool Calling은 선형적으로 읽을 수 있고 언어 모델에서 제어 가능합니다