Gemma-4-31B v6e-4 TPU 벤치마크

발행: 3일 전 (2026년 5월 9일 AM 01:57 GMT+9)

4 분 소요

원문: Dev.to

Source: Dev.to

벤치마크 개요

도전 과제: Gemma 4 – Build with Gemma 4
모델: Gemma‑4‑31B (google/gemma-4-31B-it)
하드웨어: Cloud TPU v6e‑4 (Trillium)
런타임: v2-alpha-tpuv6e (Flex‑start)
TPU 위치: southamerica-east1-c
서빙 엔진: vLLM (v0.20.2rc1.dev111+g8eb401134)

주요 성능 수치

지표	값
피크 프리필 처리량	463,345 토큰 / 초
평균 TTFT (~1.6k 토큰)	2.597 초
평균 TTFT (16k 토큰)	4.775 초
추정 시간당 비용 (Flex‑start)	~ $0.40
처리량 효율성	~ 308 M 토큰 / $ (피크 포화 시)

Report generated by Gemini CLI on 2026‑05‑08.

동시성 결과

동시성	평균 TTFT (초)	Prefill TPS
1	0.546599	14,778.3
2	0.562068	28,121.7
4	0.595823	51,869.1
8	0.679816	88,055.5
16	0.872466	133,697
32	1.16488	191,631
64	1.55596	261,802
128	2.15464	328,909
256	3.55723	352,654
512	7.59987	318,854
1024	21.005	240,170

효율 포화: 최대 처리량은 동시성 256에서 달성됨 (463,345 토큰/초).
확장성: TPU v6e‑4는 메모리 부족 없이 1,024개의 동시 요청을 처리했으며, 처리량이 안정적으로 유지됨.
응답성 컨텍스트: 16 k 토큰에서는 낮은 동시성(C1‑C8)에서 TTFT가 1 초 이하로 유지됨.

모델 비교

지표	Gemma‑4 31B (Dense)	Gemma‑4 26B (MoE)
아키텍처	Dense (31 B 파라미터)	Sparse (총 26 B / 활성 3.8 B)
피크 처리량 (TPU v6e‑4)	463,345 토큰/초 (≈ 457 k)	~457,000 토큰/초
인터랙티브 TTFT (C1/128t)	0.314 초	< 1.200 초
토큰당 연산 비용	31 B 파라미터/토큰	3.8 B 파라미터/토큰 (≈ 7.5배 낮음)
최대 컨텍스트 윈도우	64 K (16 K까지 테스트)	256 K (공유 KV 캐시)

분석 요약

처리량 동등성: 동일한 TPU v6e‑4 하드웨어에서 31 B Dense 모델이 26 B MoE 모델의 피크 처리량과 거의 동일하거나 약간 초과하여, Trillium 아키텍처에서 Dense 행렬 연산에 대한 강력한 하드웨어‑소프트웨어 최적화를 보여줍니다.
연산 효율성: 처리량은 비슷하지만, MoE 모델은 활성 파라미터가 3.8 B에 불과해 토큰당 연산 효율이 약 7.5배 더 높습니다. 다중 테넌트 시나리오에서는 전력이나 열 제한에 도달하기 전에 더 많은 동시 사용자를 지원할 수 있습니다.
지연 시간 이점: Dense 모델은 낮은 부하의 인터랙티브 작업에서 TTFT가 0.314 초로 MoE 모델의 1.2 초 목표보다 훨씬 빠른 반응성을 제공합니다.
컨텍스트 확장성: MoE 모델의 공유 KV 캐시는 256 K 토큰까지 확장할 수 있는 반면, Dense 스택은 현재 16 K‑64 K 범위 내에서 고처리량에 최적화되어 있습니다.

관련 글

아무도 이야기하지 않는 격차: 학생, 기업 및 테크놀로지 압박

아무도 말하지 않는 격차: 현재 인도에서 CS 학생이 된다는 것은 결승선이 계속 움직이는 레이스를 뛰는 것과 같습니다. 기업들은 최신 기술을 갖춘 인재를 원하고, t...

데이터베이스 경고 신호를 식별하고 무중단 마이그레이션을 계획하는 방법

소개 Database 중단은 종종 최악의 순간에 발생하여, 화난 사용자, 스트레스를 받은 이해관계자, 그리고 강도 높은 압박 속에서 문제를 해결해야 하는 상황에 처하게 됩니다.

동시 10K 사용자에게 LLM 토큰 스트리밍

코더에서 아키텍트로: Claude와 MCP를 활용해 워크플로우를 재구성한 방법

AI‑Augmented Engineering: From Manual Coding to System Architecture “AI anxiety”는 종종 창조성이 빼앗긴다는 두려움에서 비롯됩니다. 수동 코딩에 집착하는…