Gemma-4-31B v6e-4 TPU 벤치마크
발행: (2026년 5월 9일 AM 01:57 GMT+9)
4 분 소요
원문: Dev.to
Source: Dev.to
벤치마크 개요
- 도전 과제: Gemma 4 – Build with Gemma 4
- 모델: Gemma‑4‑31B (
google/gemma-4-31B-it) - 하드웨어: Cloud TPU v6e‑4 (Trillium)
- 런타임:
v2-alpha-tpuv6e(Flex‑start) - TPU 위치:
southamerica-east1-c - 서빙 엔진: vLLM (
v0.20.2rc1.dev111+g8eb401134)
주요 성능 수치
| 지표 | 값 |
|---|---|
| 피크 프리필 처리량 | 463,345 토큰 / 초 |
| 평균 TTFT (~1.6k 토큰) | 2.597 초 |
| 평균 TTFT (16k 토큰) | 4.775 초 |
| 추정 시간당 비용 (Flex‑start) | ~ $0.40 |
| 처리량 효율성 | ~ 308 M 토큰 / $ (피크 포화 시) |
Report generated by Gemini CLI on 2026‑05‑08.
동시성 결과
| 동시성 | 평균 TTFT (초) | Prefill TPS |
|---|---|---|
| 1 | 0.546599 | 14,778.3 |
| 2 | 0.562068 | 28,121.7 |
| 4 | 0.595823 | 51,869.1 |
| 8 | 0.679816 | 88,055.5 |
| 16 | 0.872466 | 133,697 |
| 32 | 1.16488 | 191,631 |
| 64 | 1.55596 | 261,802 |
| 128 | 2.15464 | 328,909 |
| 256 | 3.55723 | 352,654 |
| 512 | 7.59987 | 318,854 |
| 1024 | 21.005 | 240,170 |
- 효율 포화: 최대 처리량은 동시성 256에서 달성됨 (463,345 토큰/초).
- 확장성: TPU v6e‑4는 메모리 부족 없이 1,024개의 동시 요청을 처리했으며, 처리량이 안정적으로 유지됨.
- 응답성 컨텍스트: 16 k 토큰에서는 낮은 동시성(C1‑C8)에서 TTFT가 1 초 이하로 유지됨.
모델 비교
| 지표 | Gemma‑4 31B (Dense) | Gemma‑4 26B (MoE) |
|---|---|---|
| 아키텍처 | Dense (31 B 파라미터) | Sparse (총 26 B / 활성 3.8 B) |
| 피크 처리량 (TPU v6e‑4) | 463,345 토큰/초 (≈ 457 k) | ~457,000 토큰/초 |
| 인터랙티브 TTFT (C1/128t) | 0.314 초 | < 1.200 초 |
| 토큰당 연산 비용 | 31 B 파라미터/토큰 | 3.8 B 파라미터/토큰 (≈ 7.5배 낮음) |
| 최대 컨텍스트 윈도우 | 64 K (16 K까지 테스트) | 256 K (공유 KV 캐시) |
분석 요약
- 처리량 동등성: 동일한 TPU v6e‑4 하드웨어에서 31 B Dense 모델이 26 B MoE 모델의 피크 처리량과 거의 동일하거나 약간 초과하여, Trillium 아키텍처에서 Dense 행렬 연산에 대한 강력한 하드웨어‑소프트웨어 최적화를 보여줍니다.
- 연산 효율성: 처리량은 비슷하지만, MoE 모델은 활성 파라미터가 3.8 B에 불과해 토큰당 연산 효율이 약 7.5배 더 높습니다. 다중 테넌트 시나리오에서는 전력이나 열 제한에 도달하기 전에 더 많은 동시 사용자를 지원할 수 있습니다.
- 지연 시간 이점: Dense 모델은 낮은 부하의 인터랙티브 작업에서 TTFT가 0.314 초로 MoE 모델의 1.2 초 목표보다 훨씬 빠른 반응성을 제공합니다.
- 컨텍스트 확장성: MoE 모델의 공유 KV 캐시는 256 K 토큰까지 확장할 수 있는 반면, Dense 스택은 현재 16 K‑64 K 범위 내에서 고처리량에 최적화되어 있습니다.