TPU와 GPU: 무엇이며, 어떻게 다른지, 그리고 각각에 적합한 워크로드는 무엇인지
I’m happy to help translate the article, but I don’t see the text you’d like translated—only the source link is provided. Could you please paste the content you want translated (or let me know which sections you need)? Once I have the text, I’ll translate it into Korean while preserving the original formatting, markdown, and any code blocks or URLs.
Google Cloud에서 GPU vs. TPU
Google Cloud에서 머신러닝을 다뤄본 적이 있다면, GPU 인스턴스와 TPU 중 어느 것을 선택할지라는 선택에 직면했을 것입니다.
대부분의 팀은 이미 익숙한 GPU를 기본으로 선택합니다. 하지만 추론 비용이 상승하고 TPU 도구가 성숙해짐에 따라, 각 칩이 실제로 무엇을 하는지, 그리고 언제 어느 쪽이 더 뛰어난 성능을 보이는지 이해하는 것이 중요합니다.
이 글에서 다루는 내용
- GPU와 TPU가 무엇인지
- 작동 원리
- 각 칩에 더 적합한 워크로드
- Google의 현재 TPU 라인업 (Google Cloud Next 2026에서 발표된 8세대 칩 포함)
이미지 자리 표시자
이미지 출처: Google Cloud
1. 배경
GPU
- 원래 비디오 게임 렌더링을 위해 제작되었습니다.
- 기본 수학이—대규모 병렬 부동소수점 연산—같기 때문에 AI 작업을 잘 처리합니다.
- 연구자들은 2012년경에 이를 깨달았으며, GPU는 신경망 훈련의 기본 선택으로 빠르게 자리 잡았습니다.
TPU
- 2013년에 Google Brain 엔지니어들은 모든 Android 사용자가 하루에 3분만 음성 검색을 사용한다면 Google은 전 세계 데이터센터 용량을 두 배로 늘려야 한다고 계산했습니다.
- 그 규모에서 범용 GPU로 추론을 실행하는 것은 비용이 많이 들고 전력 소모가 많았습니다.
- Google의 해결책: 신경망 수학 전용으로 설계된 칩.
- 첫 번째 TPU는 2015년에 Google 데이터센터에서 생산에 들어갔으며, 2018년에 Cloud TPU로 공개되었습니다.
- 핵심 아이디어: GPU가 그래픽스에서 물려받은 모든 요소를 제거하고 행렬 곱셈에만 완전히 집중하는 것—이 원칙은 오늘날까지 모든 TPU 세대를 이끌고 있습니다.
2. 칩 작동 방식
2.1 GPU 아키텍처
- 수천 개의 작은 코어를 가진 병렬 프로세서.
- CPU(8–64개의 강력한 범용 코어)와 비교할 때, NVIDIA H100과 같은 고성능 GPU는 수천 개의 코어를 가지고 있으며, 동일한 명령을 여러 데이터 포인트에 동시에 실행합니다(SIMD – 단일 명령, 다중 데이터).
- 지원되는 정밀도 포맷: FP32, FP16, BF16, INT8, FP8.
- PyTorch, TensorFlow, JAX, CUDA 라이브러리, 시뮬레이션, 렌더링 파이프라인 등을 실행합니다.
- 이러한 폭넓은 지원 덕분에 GPU는 텍스처 매핑, 분기 예측 및 순수 행렬 곱셈 중에 사용되지 않는 기타 연산을 위한 하드웨어를 탑재하고 있습니다.
- 메모리: NVIDIA H100은 80 GB HBM2e를 패키지에 탑재합니다. 메모리 대역폭이 AI 워크로드에서 종종 병목이 되며, 순수 연산량이 아니라는 점을 기억하세요.
2.2 TPU 아키텍처
- 한 가지 작업을 위해 설계되었습니다: 텐서 수학, 특히 신경망 학습 및 추론의 핵심인 행렬 곱셈.
- 핵심 하드웨어: 시스토릭 어레이.
- 표준 프로세서에서는 각 연산이 메모리에서 입력을 읽고, 계산한 뒤 결과를 다시 기록합니다.
- 시스토릭 어레이에서는 데이터가 곱‑누적 유닛의 격자를 통해 흐릅니다. 가중치를 한 번만 로드하고 입력을 격자를 통과시키면, 결과가 유닛 간에 주 메모리로 돌아가지 않고 흐르며, 지속적인 메모리 왕복을 없앱니다.
- 정밀도: Google은 초기 세대부터 BF16 지원을 추가했으며, GPU는 나중에 이를 도입했습니다. 최신 칩(GPU와 TPU 모두)은 FP8을 기본적으로 지원해 추론 처리량을 높입니다.
- 제한 사항:
- 동적 제어 흐름, 가변 길이 시퀀스, 맞춤 연산에 취약합니다.
- 대부분의 트랜스포머 모델이 생성하는 정적 계산 그래프에 가장 적합합니다.
3. 올바른 가속기 선택
3.1 GPU가 권장되는 경우
| Workload Type | Reason |
|---|---|
| PyTorch‑first 팀 | 대부분의 연구 코드, 오픈‑소스 체크포인트 및 파인‑튜닝 가이드는 GPU를 전제로 합니다. |
| TensorFlow ops가 Cloud TPU에 없는 경우 | 일부 TensorFlow 연산은 TPU에서 사용할 수 없습니다 (Google의 op‑list 참고). |
| 동적 입력 (가변‑길이 시퀀스, 조건 분기, 맞춤형 CUDA 확장) | GPU는 이를 원활하게 처리하지만, TPU는 다루기 까다로울 수 있습니다. |
| 중대형 모델 및 큰 효과 배치 크기 | GPU는 배치 크기에 따라 잘 확장됩니다. |
| 멀티 클라우드 또는 온프레미스 배포 | TPU는 Google Cloud에서만 제공됩니다. |
| 혼합 워크로드 (ML 학습 + 과학 시뮬레이션 + 렌더링) | GPU는 범용이며, TPU는 특화된 용도에 적합합니다. |
| 빠르게 움직이는 소규모 팀 | GPU 도구(프로파일러, 디버거, 커뮤니티 튜토리얼)가 더 성숙해 성능 문제 진단이 용이합니다. |
3.2 TPU가 빛을 발하는 경우
| Workload Type | Reason |
|---|---|
| 대규모 딥러닝 모델 학습 (예: 대형 언어 모델) | TPU는 방대한 행렬 연산을 효율적으로 처리합니다. |
| 행렬 연산이 주를 이루는 모델 | 시스톨릭 어레이는 고밀도 선형 대수에 뛰어납니다. |
| 장기 학습 작업 (수주 또는 수개월) | TPU 팟은 높은 처리량과 토큰당 낮은 비용을 제공합니다. |
| 초대형 임베딩 (고급 랭킹 및 추천) | TPU의 메모리 아키텍처는 대규모 가중치 행렬에 최적화되어 있습니다. |
| 대규모 트랜스포머 학습 | TPU 팟은 Google의 **Inter‑Chip Interconnect (ICI)**를 통해 수만 개의 칩으로 확장됩니다; Gemma와 같은 모델을 TPU 팟에서 학습하면 GPU 클러스터보다 더 빠르고 비용 효율적일 수 있습니다. |
| 고볼륨 프로덕션 추론 | **TPU v6e (Trillium)**와 Ironwood는 추론 전용으로 설계되었으며, Ironwood는 v6e 대비 >4× 높은 칩당 성능을 제공합니다. |
| 맞춤형 PyTorch/JAX 연산이 없는 모델 | 순수 TensorFlow/JAX 워크로드는 TPU 하드웨어에 깔끔하게 매핑됩니다. |
| Google 오픈‑웨이트 모델 (예: Gemma 4, 2026년 4월 출시) | TPU 서빙에 최적화되어 있으며, Google은 Cloud TPU에서 vLLM을 통해 배포할 수 있는 JAX 레퍼런스 구현 및 커뮤니티 가이드를 제공합니다. |
3.3 TPU에 적합하지 않은 워크로드
- 빈번한 분기나 다수의 원소별 연산을 필요로 하는 선형대수 프로그램.
- 고정밀 연산(예: FP64)이 필요한 워크로드.
- 주 학습 루프에 맞춤형 연산이 포함된 신경망 워크로드.
4. Google의 현재 TPU 라인업 (Cloud Next 2026 기준)
| Generation | Codename | Primary Use | Peak Compute* | Energy Efficiency | Notable Features |
|---|---|---|---|---|---|
| v5e | – | 범용 학습 및 추론 | – | – | 기본 세대 |
| v6e (Trillium) | – | 대량 추론 | – | – | 서비스용 최적화된 메모리 대역폭 |
| Ironwood | – | 차세대 추론 | 4× performance per chip vs. v6e | +67 % (v5e 대비) | FP8 네이티브 지원, 낮은 지연 시간 |
| v8 (8th‑gen) | – | 대규모 학습 팟 | 4.7× peak compute of v5e | +67 % energy efficiency | ICI를 통해 수만 개 칩으로 확장, vLLM과 통합하여 서비스 |
*피크 컴퓨트 값은 v5e 세대를 기준으로 하며 Google이 인용한 수치입니다.
5. 핵심 요약
- GPU = 다재다능하고 성숙한 툴링을 갖추며, 클라우드와 온‑프레미스 어디서든 작동합니다. 동적 모델, 혼합 워크로드, 그리고 이미 PyTorch에 깊이 파고든 팀에 이상적입니다.
- TPU = 밀집 행렬 연산에 특화되어 있으며, 정적 그래프에 맞는 워크로드일 때 대규모 학습 및 고처리량 추론에 뛰어납니다. Google Cloud에서 특히 최적이며, 트랜스포머‑중심 워크로드와 Google이 공개한 모델에 가장 적합합니다.
프레임워크, 워크로드 특성, 그리고 배포 환경에 맞는 가속기를 선택하세요.
Source: …
Google TPU 8세대 개요
핵심 요점
- 두 개의 새로운 칩: TPU 8t(학습)와 TPU 8i(추론).
- 두 칩 모두 Google의 Axion ARM 호스트 CPU에서 동작하며 액체 냉각을 사용합니다.
- vLLM이 이제 TPU v6e를 지원해 오프라인 배치 추론 및 온라인 API 서빙이 가능합니다.
TPU v6e (추론)
- 팟당 256칩 – 비용 민감한 추론 워크로드의 주력 칩입니다.
- 칩당 사양
- 4,614 FP8 TFLOPS
- 192 GB HBM3E 메모리
- 7.37 TB/s 메모리 대역폭
- 9.6 Tb/s 인터칩 인터커넥트
- 팟 확장 – 최대 9,216칩 → 42.5 FP8 ExaFLOPS(팟당) (이전 세대 대비 약 4배 성능).
- Google Cloud Next 2025에서 발표되었습니다.
TPU 8t – 학습 칩
- 목적: 고처리량 모델 학습.
- 팟 구성 – 9,600칩, 2 PB 공유 HBM 메모리, 121 FP4 ExaFLOPS 연산량 (Ironwood 대비 팟당 약 3배).
- 인터칩 대역폭 – 칩당 19.2 Tb/s (Ironwood의 두 배).
- 네트워크 패브릭 – Virgo Network가 데이터센터 내 134 k칩을 연결하고, 이론적으로 > 1 M칩을 사이트 간에 연결할 수 있습니다.
- 데이터 경로 개선
- TPUDirect RDMA와 TPU Direct Storage가 호스트 CPU를 우회해 대용량 전송 시 대역폭을 두 배로 늘립니다.
- 효율 목표 – 97 % 좋은 처리량(즉, 사이클의 97 %가 실제 학습에 사용).
TPU 8i – 추론 칩
- 목적: 저지연·고처리량 추론(특히 Mixture‑of‑Experts).
- 팟 구성 – 1,152칩, 팟당 11.6 FP8 ExaFLOPS.
- 메모리 – 칩당 288 GB HBM(8t보다 많음) + 384 MB 온칩 SRAM(Ironwood 대비 3배).
- 성능
- 추론 시 Ironwood 대비 비용 대비 성능이 80 % 향상.
- 전력 대비 성능이 2배 향상.
- 인터커넥트 – Boardfly가 최대 네트워크 홉을 16 → 7로 줄여 MoE 모델에 중요합니다.
- 연산 유닛 – Ironwood의 SparseCores를 **Collectives Acceleration Engine (CAE)**으로 교체해 집합 연산 지연 시간을 5배 감소시켰습니다.
왜 추론 칩에 메모리가 더 많은가?
대규모 MoE 추론은 메모리 대역폭에 제한을 받습니다. 토큰을 서비스하려면 가중치와 KV‑캐시를 학습보다 더 빠르게 스트리밍해야 하므로 8i는 칩당 더 많은 HBM을 탑재합니다.
도구 및 생태계
| 분야 | 권장 도구 |
|---|---|
| 연구 및 개발 | GPU(성숙한 생태계, 대규모 커뮤니티) |
| TPU 기반 프로덕션 AI | JAX, TensorFlow, PyTorch XLA, vLLM (TPU v6e용) |
| 모델 레퍼런스 구현 | MaxText – TPU용 LLM 레퍼런스 (GitHub) |
| 오픈‑웨이트 LLM | Gemma – DeepMind 라이브러리 (GitHub) |
| 추론 서빙 | Gemma 4 on TPU, 맞춤형 서빙 스택 |
추가 자료
- Google Cloud Blog – TPU 8t and TPU 8i technical deep dive
- Google Cloud Blog – Ironwood: The first Google TPU for the age of inference
- Google Cloud Blog – Training large models on Ironwood TPUs
- Google Cloud Blog – Performance per dollar of GPUs and TPUs for AI inference
- Google Cloud Blog – Building production AI on Google Cloud TPUs with JAX
- GitHub – MaxText: LLM reference implementation for TPUs
- GitHub – Gemma open‑weight LLM library (DeepMind)
- TechRadar – Google Cloud unveils eighth‑generation TPUs
TL;DR
- TPU 8t: 대규모 학습 팟(9,600칩, 121 FP4 ExaFLOPS), 두 배 인터칩 대역폭, Virgo 패브릭을 통한 초대규모 확장.
- TPU 8i: 추론 중심 팟(1,152칩, 11.6 FP8 ExaFLOPS), 더 많은 온칩 메모리, Boardfly 인터커넥트, 빠른 집합 연산을 위한 CAE.
- 두 칩 모두 이전 Ironwood 세대 대비 비용 대비 성능 및 전력 대비 성능이 크게 향상되었으며, 최신 도구(JAX, vLLM, MaxText 등)와 완벽히 호환됩니다.
TPUSprint (원본 섹션 서명)