[Paper] 언어 모델을 위한 병렬 토큰 예측

발행: 4개월 전 (2025년 12월 25일 오전 03:46 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2512.21323v1

번역할 텍스트를 제공해 주시겠어요? 텍스트를 주시면 요청하신 대로 한국어로 번역해 드리겠습니다.

개요

이 논문은 **Parallel Token Prediction (PTP)**이라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 대형 언어 모델이 한 번에 하나씩이 아니라 여러 개의 종속 토큰을 동시에 생성하도록 합니다. 샘플링 로직을 모델 자체에 통합함으로써, PTP는 일반적으로 자동 회귀 디코딩에서 지배적인 지연 시간을 줄이면서 원래 모델의 전체 표현력을 유지합니다.

주요 기여

범용 병렬 생성 – PTP는 모든 자기회귀 분포를 표현할 수 있어 기존 다중 토큰 방법을 제한하던 독립성 가정을 없앱니다.
단일 트랜스포머 패스에서의 공동 토큰 예측 – 여러 토큰을 함께 샘플링하여 긴 출력에 필요한 순전파 횟수를 크게 줄입니다.
두 가지 학습 경로 – (1) 사전 학습된 자기회귀 교사로부터의 증류, 그리고 (2) 교사 없이 데이터에서 직접 학습하는 역자기회귀 학습.
이론적 보장 – 저자들은 충분한 용량이 주어지면 PTP가 어떤 자기회귀 시퀀스 분포도 정확히 복원할 수 있음을 증명합니다.
최첨단 추측 디코딩 – Vicuna‑7B 모델에서 PTP는 Spec‑Bench 벤치마크에서 디코딩 단계당 4개 이상의 토큰을 받아들여 기존 추측 디코딩 베이스라인을 능가합니다.

방법론

샘플링 과정 포함 – 토큰 샘플링을 외부 단계로 취급하는 대신, PTP는 트랜스포머의 출력 레이어를 확장하여 공동 분포를 k개의 미래 토큰 블록에 대해 출력하도록 합니다.
조건부 팩터화 – 공동 분포는 토큰 간 의존성을 존중하는 방식으로 팩터화됩니다 (예: 블록 내에서 이전에 예측된 토큰만을 드러내는 마스크된 셀프‑어텐션 마스크 사용).
학습 옵션
- 증류: 기존의 자동회귀 모델이 교사 경로를 생성하고, PTP는 토큰 블록에 대한 교사의 공동 분포에 맞추도록 학습합니다.
- 역자동회귀 학습: PTP는 블록‑단위 팩터화 하에 관측된 시퀀스의 가능도를 직접 최대화하며, 샘플링 결정에 대한 역전파를 가능하게 하는 재파라미터화 트릭을 사용합니다.
디코딩 – 추론 시 모델은 한 번의 순전파로 k개의 토큰 블록을 예측하고, 이후 윈도우를 k 위치만큼 앞으로 이동합니다 (거부 단계가 필요할 경우 더 작은 스트라이드 사용 가능).

이 접근 방식은 모든 트랜스포머 아키텍처(디코더‑전용, 인코더‑디코더 등)와 호환되며, 수정된 출력 헤드 외에 추가적인 구조적 변경을 요구하지 않습니다.

결과 및 발견

모델 / 설정	단계당 토큰 수 (평균)	표준 디코딩 대비 속도 향상	BLEU / ROUGE (품질)
Vicuna‑7B + PTP (증류)	4.2	~3.8×	기준과 비교 가능 (성능 저하 없음)
Vicuna‑7B + PTP (역방향)	3.8	~3.5×	개방형 프롬프트에서 약간 높은 성능
Spec‑Bench (추측 디코딩)	>4 토큰/스텝	최신 기술 수준	원본 모델의 퍼플렉시티 유지

주요 요점

지연 시간이 크게 감소합니다. 이는 변환기 호출 횟수가 평균 블록 크기만큼 감소하기 때문입니다.
모델링 파워가 유지됩니다 – 품질 지표가 원래의 자기회귀 모델과 동등하게 유지되어 보편성에 대한 이론적 주장을 확인합니다.
유연성 – 두 훈련 방식 모두 작동하여 실무자가 기존 모델을 미세 조정하거나 처음부터 훈련할 수 있는 옵션을 제공합니다.

실용적 의미

더 빠른 인터랙티브 AI – 챗봇, 코드 어시스턴트 및 기타 실시간 LLM 서비스가 일반 GPU에서도 거의 실시간에 가깝게 응답할 수 있어 사용자 경험이 향상됩니다.
비용 절감 – 전방 패스 횟수가 줄어들어 추론 중심 워크로드(예: 문서 일괄 생성 또는 합성 데이터 생성)의 컴퓨팅 비용이 낮아집니다.
확장 가능한 장문 생성 – 스토리 작성, 보고서 초안 작성, 전사 요약 등과 같은 응용 프로그램은 일관성을 유지하면서도 실제 소요 시간이 감소하는 혜택을 얻습니다.
기존 파이프라인과의 호환성 – PTP가 디코더 헤드의 바로 대체 가능한 형태이므로, 팀은 토크나이저, API, 서빙 인프라를 재설계할 필요 없이 도입할 수 있습니다.

제한 사항 및 향후 연구

블록 크기 트레이드‑오프 – 블록이 클수록 속도가 빨라지지만, 공동 예측이 초기에 벗어나면 오류 전파가 증폭될 수 있다; 적응형 블록 크기 조정은 아직 해결되지 않은 문제이다.
학습 오버헤드 – 증류에는 강력한 교사 모델과 추가 연산이 필요하며, 역학습이 이를 완화하지만 하이퍼파라미터를 신중히 조정해야 할 수 있다.
하드웨어 제약 – 이 방법이 패스 수를 줄이긴 하지만 각 패스가 더 큰 출력 공간을 처리하므로 매우 큰 모델에서는 메모리 부담이 커질 수 있다.
향후 방향 – 저자들은 동적 블록 예측 탐색, 양자화/압축 기법과의 긴밀한 통합, 그리고 PTP를 멀티모달 생성 모델에 확장하는 것을 제안한다.

저자

Felix Draxler
Justus Will
Farrin Marouf Sofian
Theofanis Karaletsos
Sameer Singh
Stephan Mandt

논문 정보

arXiv ID: 2512.21323v1
분류: cs.CL, cs.LG
출판일: 2025년 12월 24일
PDF: PDF 다운로드

[Paper] 언어 모델을 위한 병렬 토큰 예측

개요

주요 기여

방법론

결과 및 발견

실용적 의미

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] A2P-Vis: 분석기-프레젠터 에이전틱 파이프라인을 통한 시각적 인사이트 생성 및 보고

[Paper] TrGLUE와 SentiTurca 소개: 터키어 일반 언어 이해 및 감성 분석을 위한 포괄적 벤치마크

[Paper] Transformers Scaling Law에서 학습 역학과 일반화 통합

[Paper] 불확실성 정량화를 통한 Masked Diffusion Models의 디코딩 경로 최적화