2달러 이하로 H100 사용하기
Source: Dev.to
TL;DR
세 가지 실천을 결합하면 H100을 가장 저렴하게 사용할 수 있습니다: 멀티‑프로바이더 검색으로 최저 스팟 가격을 찾고, 유휴 컴퓨팅을 피하도록 학습 흐름을 설계하며, 진행 상황을 잃지 않도록 적극적으로 체크포인트를 저장해 프로바이더 간에 마이그레이션합니다. 이 가이드는 이를 신뢰할 수 있고 개발자 친화적인 방식으로 구현하는 방법을 설명합니다.
Why H100 Pricing Varies So Much
H100 가격은 온‑디맨드 프로바이더, 스팟 마켓, 커뮤니티 GPU 플랫폼에 따라 크게 차이납니다. 공급량, 지역, 호스트 용량에 따라 동일한 H100이 Vast AI나 Akash와 같은 프로바이더에서는 시간당 $2 이하에 제공될 수 있지만, 시간당 $8 이상까지 올라갈 수 있습니다. 이러한 가격 차이는 일관된 비용 효율성을 원한다면 가격 탐색이 필수임을 의미합니다.
대부분의 엔지니어는 단일 플랫폼에 묶이거나 작업이 유휴 상태일 때도 계속 실행시켜 과도하게 비용을 지출합니다. 이 두 문제는 더 나은 탐색과 워크로드 설계로 해결할 수 있습니다.
Practice 1 – Use a Cross‑Provider Search to Locate the Lowest Price
스팟 마켓과 커뮤니티 GPU 마켓플레이스는 종종 훨씬 낮은 가격을 제공하지만 가용성은 변동합니다. 크로스‑프로바이더 탐색 레이어를 사용하면 여러 대시보드를 일일이 확인하지 않고 현재 최저 비용의 H100을 찾을 수 있습니다.
Aquanode은 주요 마켓플레이스의 목록을 집계하는 간단한 가격 필터를 포함하고 있습니다. 효과적인 시간당 가격, 메모리 크기, 호스트 평점 등을 기준으로 정렬할 수 있습니다. 이는 수요가 낮은 시기에 H100 가격이 $2 이하로 떨어지는 경우가 많기 때문에 중요합니다.
Practice 2 – Avoid Idle GPU Time with Checkpoint‑First Training
H100 워크로드에서 가장 큰 숨은 비용은 유휴 컴퓨팅입니다. GPU 세션을 일회성으로 취급하면 GPU가 실제로 학습에 사용되지 않을 때 언제든지 종료하고 나중에 다시 재개할 수 있습니다.
실용적인 패턴:
N단계마다 체크포인트를 저장합니다.- 체크포인트를 내구성이 보장된 원격 스토리지에 동기화합니다.
- 전처리, 평가, 디버깅 등으로 유휴 시간이 발생하면 H100을 종료합니다.
- 다른 프로바이더의 사용 가능한 H100에서도 재개합니다.
- 이렇게 하면 실제 학습 시간에 비례한 비용만 발생하고 전체 세션 시간에 비례한 비용은 줄어듭니다.
Practice 3 – Migrate Between Machines Without Affecting Training
더 저렴한 H100이 나타나면 즉시 이동할 수 있어야 합니다. 주요 프레임워크는 이미 이를 지원합니다:
- PyTorch
state_dict체크포인트 - DeepSpeed 및 FSDP 샤딩 체크포인트
- Hugging Face Accelerate 통합 체크포인트
예시 워크플로우:
- $2 정도에 찾은 H100에서 학습을 시작합니다.
- 새로운 목록이 $1.60에 나타납니다.
- 체크포인트를 저장하고 현재 세션을 중단합니다.
- 더 저렴한 호스트에서 새 세션을 시작합니다.
- 체크포인트를 복원하고 학습을 이어갑니다.
이는 대규모 클러스터 스케줄링 전략을 공개 GPU 시장에 적용한 형태입니다.
Realistic Example
하루에 8시간씩 확산 모델을 학습한다고 가정해 보세요. 기존의 장기 실행 인스턴스는 유휴 시간이 누적되어 예상보다 높은 비용이 발생합니다. 대신에:
- 활성 학습: 가장 저렴한 H100을 임대합니다.
- CPU‑집중 전처리 또는 디버깅: 인스턴스를 종료합니다.
- 더 저렴한 H100이 나타날 때: 마이그레이션하고 재개합니다.
이 방법은 40 % 이상의 비용 절감을 가져옵니다. 왜냐하면 GPU를 실제로 활용하는 시간에만 비용을 지불하고 항상 최저 가격의 하드웨어를 선택하기 때문입니다.
Notes on Stability and Provider Differences
저렴한 H100은 네트워크 대역폭, NVMe 성능, 시작 특성 등이 다양한 호스트에서 제공됩니다. 마이그레이션을 안정적으로 유지하려면:
- 컨테이너화된 환경을 사용합니다.
- 체크포인트를 외부에 저장합니다.
- 벤더‑특정 바인딩을 피합니다.
- 시작 시 GPU 컴퓨팅 Capability를 검증합니다.
Conclusion
$2 이하로 H100 워크로드를 운영하는 것은 단일 프로바이더에 의존하는 것이 아니라, 현재 최저 가격을 보여주는 탐색 레이어를 활용하고 세션을 이동 가능하도록 워크플로를 설계하는 것입니다. Aquanode는 저비용 옵션을 식별하는 데 도움을 주며, 체크포인트‑우선 설계는 학습을 특정 머신이나 프로바이더에 종속되지 않게 합니다.