AI 모델 실행이 메모리 게임으로 변하고 있다

발행: (2026년 2월 18일 오전 01:44 GMT+9)
5 분 소요
원문: TechCrunch

Source: TechCrunch

AI 인프라 비용에 대해 이야기할 때 보통은 Nvidia와 GPU에 초점을 맞추지만, 메모리 역시 점점 더 중요한 요소가 되고 있습니다. 하이퍼스케일러들이 수십억 달러 규모의 새로운 데이터 센터를 구축할 준비를 하는 가운데, DRAM 칩 가격은 지난 1년 동안 약 7배 상승했습니다 (source).

메모리 오케스트레이션

동시에, 올바른 데이터가 올바른 에이전트에게 적시에 도달하도록 메모리를 조율하는 새로운 분야가 떠오르고 있습니다. 이 분야를 마스터한 기업은 더 적은 토큰으로 동일한 쿼리를 수행할 수 있어, 사업 지속 여부를 가르는 차이가 될 수 있습니다.

반도체 분석가 Dan O’Laughlin은 Substack에서 Weka의 최고 AI 책임자 Val Bercovici와의 인터뷰를 통해 메모리 칩의 중요성을 논의합니다. 이 대화는 보다 넓은 아키텍처보다는 칩 자체에 초점을 맞추지만, AI 소프트웨어에 미치는 영향은 상당합니다.

Anthropic 프롬프트‑캐싱

특히 눈에 띄는 부분은 Anthropic의 프롬프트‑캐싱 문서가 점점 복잡해지고 있다는 점입니다:

“힌트는 Anthropic의 프롬프트 캐싱 가격 페이지를 보면 알 수 있습니다. 6~7개월 전, 특히 Claude Code가 출시될 때는 아주 간단한 페이지였죠—‘캐싱을 사용하면 더 저렴합니다’라고만 적혀 있었습니다. 이제는 정확히 얼마나 많은 캐시 쓰기를 미리 구매해야 하는지에 대한 백과사전이 되었습니다. 5분 티어와 같이 업계 전반에 흔히 쓰이는 옵션이나 1시간 티어가 있으며, 그 이상은 없습니다. 이것이 매우 중요한 힌트입니다. 그리고 물론, 미리 구매한 캐시 쓰기 수에 따라 캐시 읽기 가격에 대한 다양한 차익 거래 기회가 존재합니다.”
Val Bercovici, Dan O’Laughlin과의 인터뷰

핵심 질문은 Claude가 프롬프트를 캐시 메모리에 얼마나 오래 보관하는가입니다. 사용자는 5분 창이나 더 긴 1시간 창을 구매할 수 있습니다. 캐시된 데이터를 활용하면 비용이 훨씬 낮아지지만, 새로운 데이터가 쿼리에 추가될 때마다 기존 캐시가 밀려 나갈 수 있습니다.

핵심 요약: AI 모델에서 메모리 관리가 AI 미래의 큰 부분을 차지할 것입니다. 이를 잘 수행하는 기업이 최상위에 오를 것입니다.

캐시 최적화 진전

2023년 10월, TensorMesh라는 스타트업이 스택의 한 층인 캐시‑최적화 작업으로 주목받았습니다 (TechCrunch article).

스택 전반에 걸친 기회

  • 하위 레벨 하드웨어: DRAM과 HBM을 언제 사용할지에 대한 결정은 전체 효율성에 영향을 미치는 깊은 하드웨어 고려 사항입니다.
  • 상위 레벨 오케스트레이션: 최종 사용자는 공유 캐시를 활용하기 위해 모델 스웜을 구조화하는 실험을 진행하고 있습니다.

기업이 메모리 오케스트레이션을 개선함에 따라 토큰 사용량이 감소하고 추론 비용이 낮아집니다. 동시에 모델 자체가 각 토큰을 처리하는 효율성이 높아지고 (Ramp analysis), 비용 절감이 가속화됩니다. 서버 비용이 감소함에 따라 현재는 수익성이 미미한 애플리케이션도 수익을 낼 수 있게 될 것입니다.

0 조회
Back to Blog

관련 글

더 보기 »