AI 모델 실행이 메모리 게임으로 변하고 있다
Source: TechCrunch
AI 인프라 비용에 대해 이야기할 때 보통은 Nvidia와 GPU에 초점을 맞추지만, 메모리 역시 점점 더 중요한 요소가 되고 있습니다. 하이퍼스케일러들이 수십억 달러 규모의 새로운 데이터 센터를 구축할 준비를 하는 가운데, DRAM 칩 가격은 지난 1년 동안 약 7배 상승했습니다 (source).
메모리 오케스트레이션
동시에, 올바른 데이터가 올바른 에이전트에게 적시에 도달하도록 메모리를 조율하는 새로운 분야가 떠오르고 있습니다. 이 분야를 마스터한 기업은 더 적은 토큰으로 동일한 쿼리를 수행할 수 있어, 사업 지속 여부를 가르는 차이가 될 수 있습니다.
반도체 분석가 Dan O’Laughlin은 Substack에서 Weka의 최고 AI 책임자 Val Bercovici와의 인터뷰를 통해 메모리 칩의 중요성을 논의합니다. 이 대화는 보다 넓은 아키텍처보다는 칩 자체에 초점을 맞추지만, AI 소프트웨어에 미치는 영향은 상당합니다.
Anthropic 프롬프트‑캐싱
특히 눈에 띄는 부분은 Anthropic의 프롬프트‑캐싱 문서가 점점 복잡해지고 있다는 점입니다:
“힌트는 Anthropic의 프롬프트 캐싱 가격 페이지를 보면 알 수 있습니다. 6~7개월 전, 특히 Claude Code가 출시될 때는 아주 간단한 페이지였죠—‘캐싱을 사용하면 더 저렴합니다’라고만 적혀 있었습니다. 이제는 정확히 얼마나 많은 캐시 쓰기를 미리 구매해야 하는지에 대한 백과사전이 되었습니다. 5분 티어와 같이 업계 전반에 흔히 쓰이는 옵션이나 1시간 티어가 있으며, 그 이상은 없습니다. 이것이 매우 중요한 힌트입니다. 그리고 물론, 미리 구매한 캐시 쓰기 수에 따라 캐시 읽기 가격에 대한 다양한 차익 거래 기회가 존재합니다.”
— Val Bercovici, Dan O’Laughlin과의 인터뷰
핵심 질문은 Claude가 프롬프트를 캐시 메모리에 얼마나 오래 보관하는가입니다. 사용자는 5분 창이나 더 긴 1시간 창을 구매할 수 있습니다. 캐시된 데이터를 활용하면 비용이 훨씬 낮아지지만, 새로운 데이터가 쿼리에 추가될 때마다 기존 캐시가 밀려 나갈 수 있습니다.
핵심 요약: AI 모델에서 메모리 관리가 AI 미래의 큰 부분을 차지할 것입니다. 이를 잘 수행하는 기업이 최상위에 오를 것입니다.
캐시 최적화 진전
2023년 10월, TensorMesh라는 스타트업이 스택의 한 층인 캐시‑최적화 작업으로 주목받았습니다 (TechCrunch article).
스택 전반에 걸친 기회
- 하위 레벨 하드웨어: DRAM과 HBM을 언제 사용할지에 대한 결정은 전체 효율성에 영향을 미치는 깊은 하드웨어 고려 사항입니다.
- 상위 레벨 오케스트레이션: 최종 사용자는 공유 캐시를 활용하기 위해 모델 스웜을 구조화하는 실험을 진행하고 있습니다.
기업이 메모리 오케스트레이션을 개선함에 따라 토큰 사용량이 감소하고 추론 비용이 낮아집니다. 동시에 모델 자체가 각 토큰을 처리하는 효율성이 높아지고 (Ramp analysis), 비용 절감이 가속화됩니다. 서버 비용이 감소함에 따라 현재는 수익성이 미미한 애플리케이션도 수익을 낼 수 있게 될 것입니다.