Google AI 돌파구가 왜 더 많은 데이터 센터가 필요 없는지를 보여준다
Source: Mashable Tech
Overview
우리는 대형 언어 모델을 통해 AI의 미래를 보았으며, 그 규모는 생각보다 작습니다.
2025년에 처음으로 중국의 DeepSeek을 보았을 때 이미 그 점은 명확했습니다. DeepSeek는 더 얇고 가벼운 LLM으로, 작업을 수행하는 데 필요한 데이터센터 에너지가 훨씬 적었습니다 그리고 무거운 미국 AI 모델들과의 벤치마크 테스트에서도 놀라울 정도로 좋은 성능을 보였습니다. (아이러니하게도, 이는 오픈소스 미국 모델인 Meta의 Llama 위에 구축되었습니다.)
DeepSeek는 개인정보 보호 문제로 좌절했을 수도 있지만, 작고 똑똑한 AI에 대한 흐름은 사라지지 않을 것입니다. 그 진화는 이번 주 구글이 조용히 공개한 Google Research 논문을 통해 다시 한 번 보여졌습니다.
TL;DR: TurboQuant 알고리즘은 LLM의 메모리 사용량을 6배 줄일 수 있습니다.
무엇을 의미할까요? 에너지 사용량 감소—아마도 강력한 AI 모델을 스마트폰에서 실행할 수 있을 정도까지. RAM 사용량 감소는 현재 진행 중인 RAM 부족 현상과도 시기적절합니다.
이와 같은 알고리즘은 LLM이 호스팅되는 데이터 센터를 보다 효율적으로 활용하도록 도울 수 있습니다—더 복잡한 모델을 실행할 공간을 확보하거나, 혹은 제가 말하려는 바와 같이, 새로운 데이터 센터를 대규모로 건설하는 속도를 늦출 수 있습니다. 이러한 역설은 현재 구조화된 AI 경제에 새로운 문제를 야기할 수 있습니다.
Source: …
왜 더 작고 똑똑한 것이 NVIDIA를 망칠까
지난 3년 동안 기술주들은 단 하나의 기업, 바로 NVIDIA 덕분에 계속해서 상승세를 이어왔습니다. 이 회사는 CEO Jensen Huang가 이번 달에 “역사상 가장 큰 인프라 구축”이라고 부른 현 상황—NVIDIA가 칩의 주요 공급자 가 될 데이터 센터 폭증—에 베팅하고 있었습니다.
하지만 실제 건설된 데이터 센터와 약속된 데이터 센터를 비교해 보면, 이 인프라 구축은 이미 발목이 잡히고 있습니다. 이는 New York Times의 최신 조사에서 강조된 바와 같습니다. 지연의 원인은 미국 전역의 우려하는 시민들 (현재는 NAACP까지 포함) 의 반대뿐만 아니라 허가, 신청, 검사 등 지방 정부 기구의 매끄럽지 못한 절차에도 있습니다.
큰 장애물은 전력 생산 및 송전 부족이며, 이는 AI 산업이 전기와 물을 흡수하는 양을 정량화할 수 없는 능력과 충돌합니다.
더 많은 AI에 대한 욕구가 인프라 부족과 마주칠 때, 필요는 발명의 어머니가 됩니다. 우리는 적은 자원으로 더 많은 일을 하는 법을 배우게 되고, 바로 그게 TurboQuant가 하는 일입니다.
중간‑아웃 압축
TurboQuant은 압축 알고리즘이며, HBO 코미디 Silicon Valley의 NSFW “중간‑아웃” 영감(참고: YouTube 클립)과는 무관합니다.
AI 모델이 특정 데이터를 반복적으로 접근할 때 두 가지 주요 에너지 “병목 현상”이 나타납니다:
- 키‑값 캐시 – 가장 많이 사용되는 정보를 저장하는 뜨거운 라이브러리.
- 벡터 검색 – 유사한 벡터를 매칭하는 메커니즘.
TurboQuant은 두 가지를 동시에 효과적으로 윤활시켜 메모리 접근을 더 빠르고 부드럽게, 그리고 덜 복잡하게 만듭니다. Google 논문에 따르면 TurboQuant은 “키‑값 쌍의 크기를 줄여 키‑값 캐시 병목 현상을 해소하는 데 도움을 준다”고 하며, 이는 “데이터 벡터를 무작위로 회전시키는” ‘똑똑한’ 방법 덕분이라고 합니다.
요컨대, 매우 복잡한 계산 수학의 새로운 분야가 고전적인 압축 원리를 적용하고 있습니다—기술을 더 빠르고 가볍게, 실행하기 쉽게 만드는 것이죠. ZIP 파일에서 스트리밍을 가능하게 만든 비디오 코덱에 이르기까지, 이제 우리는 AI 압축을 갖게 되었습니다. 그 결과는 더 강력한 LLM이 여러분의 스마트폰에서 완전히 실행될 수 있게 하거나, 전 세계 경제에 큰 변화를 일으키거나—동시에 두 가지 모두가 될 수도 있습니다.