저렴한 AI 서버
Source: Dev.to
소개
eBay에서 구입한 AMD MI60 두 개는 총 약 $1,000에 64 GB VRAM을 제공했으며, 이는 32K 컨텍스트 윈도우를 갖춘 Llama 3.3 70B를 집에서 실행하기에 충분합니다.
대형 언어 모델을 로컬에서 실행하려고 시작했을 때 가장 큰 제약은 VRAM이었습니다. 소비자용 GPU는 24 GB(예: RTX 4090)까지 지원합니다. 저는 직접 소유한 하드웨어에서 70 B 파라미터 모델을 실행하고 싶었습니다.
왜 MI60인가?
MI60은 AMD가 데이터센터용으로 만든 2018년 서버 GPU입니다. 32 GB HBM2 메모리를 탑재하고 있는데, 이는 최신 AI 가속기에 사용되는 고대역폭 메모리와 동일합니다. eBay에서 약 $500에 구입할 수 있습니다. 두 개를 사용하면 64 GB VRAM을 확보할 수 있어 Llama 3.3 70B를 충분히 구동할 수 있습니다.
장점
- 메모리: 카드당 32 GB HBM2, GDDR6X보다 이론적인 대역폭이 높음.
- 가격: 중고 시장에서 카드당 약 $500, 비슷한 메모리를 갖춘 고급 소비자 GPU보다 저렴.
- 추론 성능: 메모리 바인드 추론 작업에서는 추가 메모리와 대역폭이 순수 연산량보다 더 큰 영향을 줍니다.
단점
- 냉각: 서버 전용 케이스용 패시브 냉각 카드이며, 일반 PC 케이스에서는 몇 분 안에 열 스로틀링이 발생합니다.
- PCIe 병목: 두 카드를 텐서 병렬로 사용할 경우 PCIe가 제한 요소가 될 수 있습니다.
- 소프트웨어 지원: AMD는 gfx906 아키텍처에 대한 활발한 개발을 중단했지만, 하위 호환성은 유지됩니다.
냉각 솔루션
3D 프린터로 만든 덕트를 이용해 푸시‑풀 구성을 만들었습니다:
- 흡입: 케이스 내부에 120 mm 팬을 설치해 히트싱크 위로 공기를 불어넣음.
- 배기: 후면에 92 mm 팬을 두어 뜨거운 공기를 밖으로 빼냄.
맞춤형 팬‑컨트롤러 스크립트가 GPU 사용량에 따라 팬을 동기화시켜, 냉각 전 97 °C였던 접합 온도를 약 80 °C 수준으로 낮춰줍니다.
소프트웨어 스택
- ROCm: ROCm 6.3을 문제 없이 실행; 수년간의 버그 수정 덕분에 플랫폼이 안정적입니다.
- 추론 프레임워크:
vLLM이 가장 좋은 경험을 제공했습니다. 처음엔 Ollama를 사용해 보았지만 성능이 눈에 띄게 떨어졌고, 두 GPU에 걸친 텐서 병렬이 매끄럽지 않았습니다.vLLM은 속도가 더 빠르지만 모델 전환이 Ollama의 “pull‑and‑run” 워크플로우만큼 간단하지는 않으며, 이를 위해 직접 커스텀 솔루션을 만들었습니다.
성능 수치
두 MI60을 이용해 AWQ‑양자화 모델을 vLLM으로 실행한 결과:
| 모델 | 토큰/초 | GPU (텐서 병렬) |
|---|---|---|
| Qwen3 8B | ~90 | 1 |
| Qwen3 32B | ~31 | 1 |
| Llama 3.3 70B | ~26 | 2 (텐서 병렬) |
8 B와 32 B 모델은 빠르게 응답하며, 70 B 모델도 충분히 사용 가능합니다.
비용 비교
대부분의 듀얼‑GPU 소비자 구성은 최대 48 GB VRAM에 머무릅니다. MI60 두 개는 약 $1,000에 64 GB를 제공합니다. 냉각 문제만 해결하면(위 참고) 일회성 투자로 충분합니다.
향후 작업
다음 주제로 글을 더 쓸 예정입니다:
- 상세 냉각 솔루션
- 전체 소프트웨어 스택 walkthrough
- 모델 전환 워크플로우
스포일러: Stable Diffusion은 여전히 GPU를 락업시키고, Whisper는 아직 동작시키지 못했습니다.
대체 GPU
MI60이 유일한 선택은 아닙니다. 중고 시장에서 구할 수 있는 다른 카드들:
- AMD MI50, MI100
- 다양한 NVIDIA Tesla 모델
선택 시 메모리 용량, 연산 성능, 소프트웨어 지원을 고려하세요.