Google TPU에서 LLM 추론을 강화하기: diffusion‑style speculative decoding으로 3배 속도 향상
발행: (2026년 5월 6일 PM 06:48 GMT+9)
2 분 소요
Source: Google Developers Blog
개요
UCSD 연구원들은 Google TPU에서 블록‑디퓨전 추측 디코딩 방법인 DFlash를 성공적으로 구현하여 전통적인 자동회귀 초안 작성의 순차적 병목을 우회했습니다. 후보 토큰 전체 블록을 한 번의 전방 패스로 “그리듯이” 예측함으로써, 시스템은 평균 **3.13×**의 속도 향상을 달성했으며, 피크 성능은 기존 EAGLE‑3 같은 방법의 거의 두 배에 달했습니다. 이 오픈‑소스 통합은 vLLM 생태계에 포함되어 “무료” 병렬 검증과 복잡한 추론 작업을 위한 고품질 초안 예측을 활용함으로써 TPU 하드웨어를 최적화합니다.