Musk's Colossus 1 AI supercomputer's inefficient mixed-architecture design couldn't be used to train Grok, so Anthropic's using it for inference instead — Musk readies unified Blackwell-only Colossus 2 for frontier training and potential IPO
출처: Tom’s Hardware
(이미지 출처: xAI)
지난 주, Anthropic은 SpaceX와 계약을 체결하고, 후자의 Colossus 1 데이터 센터를 전부 임대했습니다. 이 센터는 220,000개가 넘는 GPU와 30 메가와트의 연산 용량을 보유하고 있습니다. 이 거래는 즉시 여러 의문을 제기합니다. 가장 큰 질문은: 왜 머스크가 xAI의 가장 과대광고된 AI 자산 중 하나를 직접적인 경쟁자인 Anthropic에 임대했는가? SpaceX의 IPO가 코앞에 다가온 상황에서 관련 전략이 작동하고 있는 것으로 보이지만, 시스템의 이기종 GPU 구성이 머스크가 임대를 결정한 핵심 이유일 수도 있다는 점도 밝혀졌습니다.
Anthropic은 새로 확보한 용량을 주로 Claude 유료 생태계 전반에 걸친 오래된 사용 병목 현상을 해소하는 데 사용할 것이라고 밝혔습니다. 회사에 따르면, 추가 연산 능력은 Claude Code 한도를 크게 높이고, Pro 및 Max 구독자에 대한 피크 시간 제한을 해제하며, 개발자와 기업 고객이 사용하는 Claude Opus 모델에 대한 API 요청 한도를 크게 확대할 수 있게 해줄 것입니다.
Anthropic과의 이처럼 예상치 못한 파트너십—머스크가 이전에 보였던 Anthropic에 대한 입장을 완전히 뒤집은 것—은 또한 Claude 생태계의 연산 수요가 얼마나 큰 압박을 받고 있는지를 보여줍니다. Anthropic은 Claude 사용 경험을 개선하기 위해 전체 300 MW AI 슈퍼클러스터가 필요하다고 말합니다.
(이미지 출처: ServeTheHome)
Anthropic이 연산 한계에 부딪힌 것으로 보임
Anthropic이 급증하는 사용자 기반의 연산 요구를 따라가지 못하고 있다는 초기 신호는 Claude 서비스 전반에 걸친 점점 더 공격적인 사용 제한에서 나타났습니다. 무료 사용자는 토큰(Claude가 작업을 처리하기 위해 할당하는 단위)이 빠르게 소진된다는 불만을 자주 제기했습니다. 그러나 제한은 무료 등급에만 국한되지 않았습니다. 유료 Pro, Max, Team, Enterprise 사용자 역시 메시지 상한, 피크 시간 제한, API 속도 제한, 그리고 특히 수요가 급증하는 시기에 Claude Code 세션에 대한 엄격한 시간 기반 사용 상한에 정기적으로 부딪혔습니다.
이는 Anthropic이 추론 용량이 바닥났다는 명백한 신호였습니다. AI 모델을 학습시키는 것은 비용이 많이 드는 일회성 연산 작업이지만, 그 모델을 수백만 명의 사용자에게 동시에 제공하는 것은 연중무휴 지속적인 연산 수요를 만들어냅니다. 이 수요는 새로운 사용자와 새로운 질의가 추가될 때마다 직접적으로 증가합니다. 겉보기 해결책은 더 많은 데이터 센터를 건설하는 것이며, Anthropic은 현재 Amazon과의 수기와트 규모 계약, Google, Microsoft, Nvidia와의 협력을 통해 이를 추진하고 있는 것으로 보입니다.
하지만 현대의 초대형 AI 데이터 센터는 수백억 달러에 달하고 건설에 수년이 걸립니다. 전력 공급은 AI 프로젝트에 충분히 대응하지 못하고 있으며, 토지, 변압기, 냉각 인프라, 고성능 GPU 자체도 제한적인 상황입니다. 또한 지역 사회로부터 AI 인프라에 대한 반감이 커지고 있습니다. 최근 우리는 미국 한 상원의원이 데이터 센터 문제로 기자와 물리적 충돌을 벌인 사건을 보도했습니다.
Anthropic의 연산 용량 문제는 즉각적이고 긴급했지만, 해결책은 장기적인 것이었습니다. 만약 수백 메가와트 규모의 거대한 AI 슈퍼클러스터가 눈앞에 있다면 어떨까요? 바로 그곳이 SpaceX AI의 Colossus 1이었습니다. 계약 체결 이후, Colossus 1의 전체 연산 능력은 현재 Anthropic에 귀속되었습니다—당분간은 말이죠.
(이미지 출처: Getty Images)
머스크, xAI, SpaceX, 그리고 다가오는 IPO
머스크가 Colossus를 공개했을 때, 이는 xAI가 OpenAI, Anthropic, Google과 AI 최전선에서 진지하게 경쟁하겠다는 가장 명확한 신호 중 하나로 여겨졌습니다. 멤피스에 위치한 이 클러스터는 조립 속도가 빨라 화제가 되었습니다. 수만 개의 Nvidia GPU가 기록적인 시간 안에 가동되었고, 최종적으로 220,000개가 넘는 가속기가 배치되었습니다. 머스크는 xAI의 미래 연산 야망을 여러 차례 자랑했으며, Colossus 2를 통해 백만 GPU 규모 시스템으로 확장할 계획도 밝혔습니다.
그렇다면 왜 그는 이 모든 것을 깔끔히 포장해 Anthropic이라는 경쟁자에게 넘겨준 걸까요? 한 가지 가능한 답은 활용도입니다. 보도에 따르면 Colossus 1은 Grok의 현재 사용자 기반이 필요로 하는 것보다 더 많은 가용 용량을 가지고 있었을 가능성이 있습니다. 그러나 한국의 주요 투자은행인 미래에셋증권이 상세히 분석한 바에 따르면, 더 큰 문제는 아키텍처에 있었습니다. Colossus 1은 이기종 클러스터로, 약 150,000개의 H100, 50,000개의 H200, 20,000개의 GB200—세 가지 다른 세대의 Nvidia 실리콘이 한 지붕 아래 섞여 있습니다. 이는 xAI가 클러스터를 급속히 조립하면서 공급이 가능한 GPU 세대를 차례로 투입한 결과이며, 의도적인 설계 선택이라기보다는 부수적인 결과였습니다.
(이미지 출처: ServeTheHome)
AI 학습에 있어 이 이기종 구성을 사용하면 효율성 문제가 크게 발생합니다. 분산 학습은 클러스터 내 모든 GPU가 각 연산 단