Google TPU에서 LLM 추론을 강화하기: diffusion‑style speculative decoding으로 3배 속도 향상

발행: (2026년 5월 6일 PM 06:48 GMT+9)
2 분 소요

Source: Google Developers Blog

개요

UCSD 연구원들은 Google TPU에서 블록‑디퓨전 추측 디코딩 방법인 DFlash를 성공적으로 구현하여 전통적인 자동회귀 초안 작성의 순차적 병목을 우회했습니다. 후보 토큰 전체 블록을 한 번의 전방 패스로 “그리듯이” 예측함으로써, 시스템은 평균 **3.13×**의 속도 향상을 달성했으며, 피크 성능은 기존 EAGLE‑3 같은 방법의 거의 두 배에 달했습니다. 이 오픈‑소스 통합은 vLLM 생태계에 포함되어 “무료” 병렬 검증과 복잡한 추론 작업을 위한 고품질 초안 예측을 활용함으로써 TPU 하드웨어를 최적화합니다.

0 조회
Back to Blog

관련 글

더 보기 »

Gemini CLI에 Subagents가 도착했습니다

2026년 4월 15일 Subagents는 Gemini CLI가 복잡하고 반복적이거나 고용량 작업을 전문화된 expert agents에게 위임할 수 있게 합니다. 각 subagent는 자신의 …