저렴한 AI 서버

발행: (2026년 2월 1일 오전 02:44 GMT+9)
6 분 소요
원문: Dev.to

Source: Dev.to

소개

eBay에서 구입한 AMD MI60 두 개는 총 약 $1,000에 64 GB VRAM을 제공했으며, 이는 32K 컨텍스트 윈도우를 갖춘 Llama 3.3 70B를 집에서 실행하기에 충분합니다.

대형 언어 모델을 로컬에서 실행하려고 시작했을 때 가장 큰 제약은 VRAM이었습니다. 소비자용 GPU는 24 GB(예: RTX 4090)까지 지원합니다. 저는 직접 소유한 하드웨어에서 70 B 파라미터 모델을 실행하고 싶었습니다.

왜 MI60인가?

MI60은 AMD가 데이터센터용으로 만든 2018년 서버 GPU입니다. 32 GB HBM2 메모리를 탑재하고 있는데, 이는 최신 AI 가속기에 사용되는 고대역폭 메모리와 동일합니다. eBay에서 약 $500에 구입할 수 있습니다. 두 개를 사용하면 64 GB VRAM을 확보할 수 있어 Llama 3.3 70B를 충분히 구동할 수 있습니다.

장점

  • 메모리: 카드당 32 GB HBM2, GDDR6X보다 이론적인 대역폭이 높음.
  • 가격: 중고 시장에서 카드당 약 $500, 비슷한 메모리를 갖춘 고급 소비자 GPU보다 저렴.
  • 추론 성능: 메모리 바인드 추론 작업에서는 추가 메모리와 대역폭이 순수 연산량보다 더 큰 영향을 줍니다.

단점

  • 냉각: 서버 전용 케이스용 패시브 냉각 카드이며, 일반 PC 케이스에서는 몇 분 안에 열 스로틀링이 발생합니다.
  • PCIe 병목: 두 카드를 텐서 병렬로 사용할 경우 PCIe가 제한 요소가 될 수 있습니다.
  • 소프트웨어 지원: AMD는 gfx906 아키텍처에 대한 활발한 개발을 중단했지만, 하위 호환성은 유지됩니다.

냉각 솔루션

3D 프린터로 만든 덕트를 이용해 푸시‑풀 구성을 만들었습니다:

  • 흡입: 케이스 내부에 120 mm 팬을 설치해 히트싱크 위로 공기를 불어넣음.
  • 배기: 후면에 92 mm 팬을 두어 뜨거운 공기를 밖으로 빼냄.

맞춤형 팬‑컨트롤러 스크립트가 GPU 사용량에 따라 팬을 동기화시켜, 냉각 전 97 °C였던 접합 온도를 약 80 °C 수준으로 낮춰줍니다.

소프트웨어 스택

  • ROCm: ROCm 6.3을 문제 없이 실행; 수년간의 버그 수정 덕분에 플랫폼이 안정적입니다.
  • 추론 프레임워크: vLLM이 가장 좋은 경험을 제공했습니다. 처음엔 Ollama를 사용해 보았지만 성능이 눈에 띄게 떨어졌고, 두 GPU에 걸친 텐서 병렬이 매끄럽지 않았습니다. vLLM은 속도가 더 빠르지만 모델 전환이 Ollama의 “pull‑and‑run” 워크플로우만큼 간단하지는 않으며, 이를 위해 직접 커스텀 솔루션을 만들었습니다.

성능 수치

두 MI60을 이용해 AWQ‑양자화 모델을 vLLM으로 실행한 결과:

모델토큰/초GPU (텐서 병렬)
Qwen3 8B~901
Qwen3 32B~311
Llama 3.3 70B~262 (텐서 병렬)

8 B와 32 B 모델은 빠르게 응답하며, 70 B 모델도 충분히 사용 가능합니다.

비용 비교

대부분의 듀얼‑GPU 소비자 구성은 최대 48 GB VRAM에 머무릅니다. MI60 두 개는 약 $1,000에 64 GB를 제공합니다. 냉각 문제만 해결하면(위 참고) 일회성 투자로 충분합니다.

향후 작업

다음 주제로 글을 더 쓸 예정입니다:

  • 상세 냉각 솔루션
  • 전체 소프트웨어 스택 walkthrough
  • 모델 전환 워크플로우

스포일러: Stable Diffusion은 여전히 GPU를 락업시키고, Whisper는 아직 동작시키지 못했습니다.

대체 GPU

MI60이 유일한 선택은 아닙니다. 중고 시장에서 구할 수 있는 다른 카드들:

  • AMD MI50, MI100
  • 다양한 NVIDIA Tesla 모델

선택 시 메모리 용량, 연산 성능, 소프트웨어 지원을 고려하세요.

Back to Blog

관련 글

더 보기 »