Gemma-4-31B v6e-4 TPU 벤치마크

발행: (2026년 5월 9일 AM 01:57 GMT+9)
4 분 소요
원문: Dev.to

Source: Dev.to

벤치마크 개요

  • 도전 과제: Gemma 4 – Build with Gemma 4
  • 모델: Gemma‑4‑31B (google/gemma-4-31B-it)
  • 하드웨어: Cloud TPU v6e‑4 (Trillium)
  • 런타임: v2-alpha-tpuv6e (Flex‑start)
  • TPU 위치: southamerica-east1-c
  • 서빙 엔진: vLLM (v0.20.2rc1.dev111+g8eb401134)

주요 성능 수치

지표
피크 프리필 처리량463,345 토큰 / 초
평균 TTFT (~1.6k 토큰)2.597 초
평균 TTFT (16k 토큰)4.775 초
추정 시간당 비용 (Flex‑start)~ $0.40
처리량 효율성~ 308 M 토큰 / $ (피크 포화 시)

Report generated by Gemini CLI on 2026‑05‑08.

동시성 결과

동시성평균 TTFT (초)Prefill TPS
10.54659914,778.3
20.56206828,121.7
40.59582351,869.1
80.67981688,055.5
160.872466133,697
321.16488191,631
641.55596261,802
1282.15464328,909
2563.55723352,654
5127.59987318,854
102421.005240,170
  • 효율 포화: 최대 처리량은 동시성 256에서 달성됨 (463,345 토큰/초).
  • 확장성: TPU v6e‑4는 메모리 부족 없이 1,024개의 동시 요청을 처리했으며, 처리량이 안정적으로 유지됨.
  • 응답성 컨텍스트: 16 k 토큰에서는 낮은 동시성(C1‑C8)에서 TTFT가 1 초 이하로 유지됨.

모델 비교

지표Gemma‑4 31B (Dense)Gemma‑4 26B (MoE)
아키텍처Dense (31 B 파라미터)Sparse (총 26 B / 활성 3.8 B)
피크 처리량 (TPU v6e‑4)463,345 토큰/초 (≈ 457 k)~457,000 토큰/초
인터랙티브 TTFT (C1/128t)0.314 초< 1.200 초
토큰당 연산 비용31 B 파라미터/토큰3.8 B 파라미터/토큰 (≈ 7.5배 낮음)
최대 컨텍스트 윈도우64 K (16 K까지 테스트)256 K (공유 KV 캐시)

분석 요약

  • 처리량 동등성: 동일한 TPU v6e‑4 하드웨어에서 31 B Dense 모델이 26 B MoE 모델의 피크 처리량과 거의 동일하거나 약간 초과하여, Trillium 아키텍처에서 Dense 행렬 연산에 대한 강력한 하드웨어‑소프트웨어 최적화를 보여줍니다.
  • 연산 효율성: 처리량은 비슷하지만, MoE 모델은 활성 파라미터가 3.8 B에 불과해 토큰당 연산 효율이 약 7.5배 더 높습니다. 다중 테넌트 시나리오에서는 전력이나 열 제한에 도달하기 전에 더 많은 동시 사용자를 지원할 수 있습니다.
  • 지연 시간 이점: Dense 모델은 낮은 부하의 인터랙티브 작업에서 TTFT가 0.314 초로 MoE 모델의 1.2 초 목표보다 훨씬 빠른 반응성을 제공합니다.
  • 컨텍스트 확장성: MoE 모델의 공유 KV 캐시는 256 K 토큰까지 확장할 수 있는 반면, Dense 스택은 현재 16 K‑64 K 범위 내에서 고처리량에 최적화되어 있습니다.
0 조회
Back to Blog

관련 글

더 보기 »