AI 연산을 위한 탐색이 차세대 Cerebras를 찾아냈을까?

발행: (2026년 5월 28일 PM 10:00 GMT+9)
7 분 소요
원문: TechCrunch

출처: TechCrunch

AI 모델을 구동하기 위한 컴퓨터에 대한 폭발적인 수요는 여전히 가속화되고 있지만, 이 분야에 종사하는 누구에게나 두 가지 큰 장애물이 있다: 적절한 칩을 확보하는 것, 그리고 그 칩을 데이터 센터에 배치해 수익을 창출하게 하는 것.

추론에 적합한 칩

GPU에 대한 수요는 급증했지만, 이제는 훈련이 끝난 AI 모델을 실행하는 데는 GPU가 최적의 칩이 아니라는 것이 일반적인 상식이 되고 있다. 모델이 실제로 응답을 생성하는 추론 단계는 훈련 단계와 다른 연산 요구사항을 가지고 있으며, 이를 위해 특별히 설계된 새로운 종류의 칩이 등장하고 있다.

최근 Nvidia의 200억 달러 규모 Groq 인수Cerebras의 570억 달러 규모 IPO와 같은 움직임은 추론에 최적화된 하드웨어에 대한 관심이 커지고 있음을 보여준다. 두 기업 모두 용량이 부족한 상황에서, General Compute의 공동 설립자인 CEO 핀 푸클로프스키와 CTO 제이슨 구디슨은 다른 길을 모색했다.

General Compute의 칩 전략

General Compute는 SambaNova(인텔이 지원하는 추론 전용 칩 제조업체)로 눈을 돌렸다. SambaNova는 최근 대중적인 논의에서 다소 밀려 있었지만, 곧 출시될 칩은 다음과 같은 특징을 가진다:

  • 보다 유연한 아키텍처
  • 추론 계산 중 컨텍스트를 저장할 수 있는 대용량 메모리
  • GPU 및 기타 특수 칩(예: Groq, Cerebras)보다 성능이 뛰어나다는 주장

푸클로프스키는 새 칩이 초당 600~700 토큰을 생성할 수 있다고 말한다. 이는 GPU가 초당 약 250 토큰을 처리하는 것에 비해 크게 향상된 수치다. General Compute는 3억 달러 규모의 SN50 칩을 주문했으며, 이를 배치할 최초의 ‘네오클라우드’가 될 예정이다.

데이터 센터 배치의 장점

  • 공기 냉각 방식(수냉식이 아님)
  • 낮은 전력 소비

이러한 특성 덕분에 기존 데이터 센터 시설에 별도의 인프라 투자를 하지 않고도 칩을 설치할 수 있다.

배치 모델: 콜로케이션 및 재활용

General Compute는 제3자 시설에 하드웨어를 설치하는 콜로케이션 계약을 추진하고 있다. 전통적인 데이터 센터 제공업체뿐 아니라 비트코인 채굴자와도 협력해, 채굴 비용이 비트코인 가격을 초과하는 경우 인프라를 재활용하려는 움직임을 활용한다.

회사는 지난주 클라우드 서비스를 출시했으며, 이미 MiniMax 2.7(강력한 오픈소스 LLM) 실행 속도 면에서 가장 빠른 서비스를 제공하고 있다고 주장한다.

자금 조달 및 전략적 파트너십

  • 1,500만 달러 시드 라운드(사후 가치 6,000만 달러) – FUSE VC가 주도하고 Carya Venture PartnersVillage Global Ventures가 참여.
  • 조 하셀만(2021년 Groq에 투자한 벤처 투자자)이 새 펀드 Evercrest Capital Partners를 통해 투자. 그는 SambaNova와 General Compute 간 파트너십을 CoreWeave와 Nvidia, 그리고 Groq의 칩 제조와 이전 클라우드 서비스 간 관계와 비교한다.

“그들은 칩을 고성장 환경에 배치할 고객 포트폴리오가 필요합니다,” 라고 하셀만은 말했다. “General Compute가 SambaNova에 베팅을 하는 만큼, SambaNova도 General Compute에 베팅을 하고 있습니다.”

추론 시장의 전체 그림

핵심 질문은 앞으로 AI 시대에서 어느 컴퓨터 아키텍처가 가장 큰 가치를 차지할 것인가이다. 추론 클라우드는 다수의 모델과 에이전트가 공존하는 세계에 대한 암묵적인 베팅이며, 추론 속도와 비용이 주요 경쟁 요소가 된다.

  • 예시: OpenRouter의 1억 1,300만 달러 규모 Series B 라운드는 고객이 여러 모델에 접근해 토큰 사용을 최적화할 수 있는 플랫폼에 대한 시장의 욕구를 반영한다.
  • 속도는 가격과 기능 모두에 영향을 미친다. 푸클로프스키는 시간 단위 코딩 에이전트 작업을 5~10분으로 단축하고, 고객 서비스를 위한 오디오 에이전트도 더 빠르게 만들고자 한다.

“ChatGPT가 초당 50 토큰을 제공한다면, 그 속도조차도 우리가 읽을 수 있는 속도보다 훨씬 빠릅니다,” 라고 푸클로프스키는 TechCrunch에 말했다. “이제는 에이전트‑대‑에이전트 환경으로 전환돼, 에이전트가 우리 대신 정보를 읽거나 데이터베이스에 ping을 보내야 하는데, 이때는 더 빠른 속도가 필요합니다.”

0 조회
Back to Blog

관련 글

더 보기 »

인터넷이 기계를 위해 재구축되고 있다

클라우드 인프라스트럭처는 오랫동안 검색하고, 클릭하고, 스크롤하고, 스트리밍을 꾸준하고 예측 가능한 방식으로 하는 인간을 중심으로 설계되어 왔습니다. AI 에이전트는 다르게 행동합니다.