Google TPU에서 LLM 추론을 강화하기: diffusion‑style speculative decoding으로 3배 속도 향상

발행: 3일 전 (2026년 5월 6일 PM 06:48 GMT+9)

2 분 소요

Source: Google Developers Blog

개요

UCSD 연구원들은 Google TPU에서 블록‑디퓨전 추측 디코딩 방법인 DFlash를 성공적으로 구현하여 전통적인 자동회귀 초안 작성의 순차적 병목을 우회했습니다. 후보 토큰 전체 블록을 한 번의 전방 패스로 “그리듯이” 예측함으로써, 시스템은 평균 **3.13×**의 속도 향상을 달성했으며, 피크 성능은 기존 EAGLE‑3 같은 방법의 거의 두 배에 달했습니다. 이 오픈‑소스 통합은 vLLM 생태계에 포함되어 “무료” 병렬 검증과 복잡한 추론 작업을 위한 고품질 초안 예측을 활용함으로써 TPU 하드웨어를 최적화합니다.

Back to Blog

Google TPU에서 LLM 추론을 강화하기: diffusion‑style speculative decoding으로 3배 속도 향상

개요

관련 글

대화 맥락에 따라 AI의 행동을 다르게 만든 방법 (Multi-Role Prompt Engineering)

딥러닝 아키텍처가 어떻게 진화했는가 — DNN에서 트랜스포머까지

Gemini CLI에 Subagents가 도착했습니다

숨겨진 43% — 팀이 LLM API 예산의 거의 절반을 낭비하는 방법