[Paper] 언어 모델을 위한 병렬 토큰 예측
Source: arXiv - 2512.21323v1
번역할 텍스트를 제공해 주시겠어요? 텍스트를 주시면 요청하신 대로 한국어로 번역해 드리겠습니다.
개요
이 논문은 **Parallel Token Prediction (PTP)**이라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 대형 언어 모델이 한 번에 하나씩이 아니라 여러 개의 종속 토큰을 동시에 생성하도록 합니다. 샘플링 로직을 모델 자체에 통합함으로써, PTP는 일반적으로 자동 회귀 디코딩에서 지배적인 지연 시간을 줄이면서 원래 모델의 전체 표현력을 유지합니다.
주요 기여
- 범용 병렬 생성 – PTP는 모든 자기회귀 분포를 표현할 수 있어 기존 다중 토큰 방법을 제한하던 독립성 가정을 없앱니다.
- 단일 트랜스포머 패스에서의 공동 토큰 예측 – 여러 토큰을 함께 샘플링하여 긴 출력에 필요한 순전파 횟수를 크게 줄입니다.
- 두 가지 학습 경로 – (1) 사전 학습된 자기회귀 교사로부터의 증류, 그리고 (2) 교사 없이 데이터에서 직접 학습하는 역자기회귀 학습.
- 이론적 보장 – 저자들은 충분한 용량이 주어지면 PTP가 어떤 자기회귀 시퀀스 분포도 정확히 복원할 수 있음을 증명합니다.
- 최첨단 추측 디코딩 – Vicuna‑7B 모델에서 PTP는 Spec‑Bench 벤치마크에서 디코딩 단계당 4개 이상의 토큰을 받아들여 기존 추측 디코딩 베이스라인을 능가합니다.
방법론
- 샘플링 과정 포함 – 토큰 샘플링을 외부 단계로 취급하는 대신, PTP는 트랜스포머의 출력 레이어를 확장하여 공동 분포를 k개의 미래 토큰 블록에 대해 출력하도록 합니다.
- 조건부 팩터화 – 공동 분포는 토큰 간 의존성을 존중하는 방식으로 팩터화됩니다 (예: 블록 내에서 이전에 예측된 토큰만을 드러내는 마스크된 셀프‑어텐션 마스크 사용).
- 학습 옵션
- 증류: 기존의 자동회귀 모델이 교사 경로를 생성하고, PTP는 토큰 블록에 대한 교사의 공동 분포에 맞추도록 학습합니다.
- 역자동회귀 학습: PTP는 블록‑단위 팩터화 하에 관측된 시퀀스의 가능도를 직접 최대화하며, 샘플링 결정에 대한 역전파를 가능하게 하는 재파라미터화 트릭을 사용합니다.
- 디코딩 – 추론 시 모델은 한 번의 순전파로 k개의 토큰 블록을 예측하고, 이후 윈도우를 k 위치만큼 앞으로 이동합니다 (거부 단계가 필요할 경우 더 작은 스트라이드 사용 가능).
이 접근 방식은 모든 트랜스포머 아키텍처(디코더‑전용, 인코더‑디코더 등)와 호환되며, 수정된 출력 헤드 외에 추가적인 구조적 변경을 요구하지 않습니다.
결과 및 발견
| 모델 / 설정 | 단계당 토큰 수 (평균) | 표준 디코딩 대비 속도 향상 | BLEU / ROUGE (품질) |
|---|---|---|---|
| Vicuna‑7B + PTP (증류) | 4.2 | ~3.8× | 기준과 비교 가능 (성능 저하 없음) |
| Vicuna‑7B + PTP (역방향) | 3.8 | ~3.5× | 개방형 프롬프트에서 약간 높은 성능 |
| Spec‑Bench (추측 디코딩) | >4 토큰/스텝 | 최신 기술 수준 | 원본 모델의 퍼플렉시티 유지 |
주요 요점
- 지연 시간이 크게 감소합니다. 이는 변환기 호출 횟수가 평균 블록 크기만큼 감소하기 때문입니다.
- 모델링 파워가 유지됩니다 – 품질 지표가 원래의 자기회귀 모델과 동등하게 유지되어 보편성에 대한 이론적 주장을 확인합니다.
- 유연성 – 두 훈련 방식 모두 작동하여 실무자가 기존 모델을 미세 조정하거나 처음부터 훈련할 수 있는 옵션을 제공합니다.
실용적 의미
- 더 빠른 인터랙티브 AI – 챗봇, 코드 어시스턴트 및 기타 실시간 LLM 서비스가 일반 GPU에서도 거의 실시간에 가깝게 응답할 수 있어 사용자 경험이 향상됩니다.
- 비용 절감 – 전방 패스 횟수가 줄어들어 추론 중심 워크로드(예: 문서 일괄 생성 또는 합성 데이터 생성)의 컴퓨팅 비용이 낮아집니다.
- 확장 가능한 장문 생성 – 스토리 작성, 보고서 초안 작성, 전사 요약 등과 같은 응용 프로그램은 일관성을 유지하면서도 실제 소요 시간이 감소하는 혜택을 얻습니다.
- 기존 파이프라인과의 호환성 – PTP가 디코더 헤드의 바로 대체 가능한 형태이므로, 팀은 토크나이저, API, 서빙 인프라를 재설계할 필요 없이 도입할 수 있습니다.
제한 사항 및 향후 연구
- 블록 크기 트레이드‑오프 – 블록이 클수록 속도가 빨라지지만, 공동 예측이 초기에 벗어나면 오류 전파가 증폭될 수 있다; 적응형 블록 크기 조정은 아직 해결되지 않은 문제이다.
- 학습 오버헤드 – 증류에는 강력한 교사 모델과 추가 연산이 필요하며, 역학습이 이를 완화하지만 하이퍼파라미터를 신중히 조정해야 할 수 있다.
- 하드웨어 제약 – 이 방법이 패스 수를 줄이긴 하지만 각 패스가 더 큰 출력 공간을 처리하므로 매우 큰 모델에서는 메모리 부담이 커질 수 있다.
- 향후 방향 – 저자들은 동적 블록 예측 탐색, 양자화/압축 기법과의 긴밀한 통합, 그리고 PTP를 멀티모달 생성 모델에 확장하는 것을 제안한다.
저자
- Felix Draxler
- Justus Will
- Farrin Marouf Sofian
- Theofanis Karaletsos
- Sameer Singh
- Stephan Mandt
논문 정보
- arXiv ID: 2512.21323v1
- 분류: cs.CL, cs.LG
- 출판일: 2025년 12월 24일
- PDF: PDF 다운로드