현재 AI 가격은 원래 사라질 운명이었다.

발행: 2주 전 (2026년 5월 22일 PM 08:24 GMT+9)

11 분 소요

현재 AI 가격 정책은 원래 사라질 운명이었습니다. 말이 안 되거든요.

Microsoft는 이번 주에 내부 Claude Code 라이선스를 취소했습니다(통합 때문이든 이유가 있든). Uber는 4개월 만에 2026년 전체 AI 예산을 소진했고, GitHub는 제품 전반에 걸쳐 정액제 플랜을 없애고 있습니다.

“AI 보조금 시대가 끝나고 있다”는 식의 표현을 보게 될 텐데, 이는 모든 제품 티어에 AI 기능을 얹어 추론 비용이 계속 낮아질 것이라는 베팅을 했던 사람들의 정중한 말입니다.

그 기대는 빗나갔고, 비용 곡선은 반대 방향으로 휘어졌으며, 연구소들은 그 비용을 전가할 수밖에 없습니다.

우리가 집단적으로 2차 사고를 잊어버린 걸까?

각 모델 세대마다 이론적으로 토큰당 비용은 감소했습니다. 때로는 품질이 비슷한 수준에서 10배 정도 저렴해지기도 했죠. 하지만 많은 사람들이 그 추세를 과대 해석해 비즈니스 모델을 만들었고, 이는 올바른 사고 방식이 아닙니다.

2차 사고를 할 줄 아는 사람 있나요?

도로 계획을 다루는 사람이라면 모두 유도 수요에 대해 알고 있습니다. 새로운 능력이 새로운 수요를 창출합니다. 고속도로가 전형적인 사례죠. 차선을 하나 늘리면 새로운 통근이 생깁니다. 그 통근은 차선이 생기기 전엔 없던 것이죠. AI도 마찬가지입니다. 추론 비용이 저렴해진다고 청구서가 줄어드는 것이 아니라, 사람들이 모델에 요구하는 작업이 확대됩니다.

이제 제 추론 쿼리는 2분이던 것이 4분 이상 걸립니다… 에이전트 기반 워크플로는 한 번에 1번 호출하던 것을 50번 호출하게 만들었습니다. 단위당 비용은 내려가지만 호출 횟수가 폭증해 전체 지출은 오릅니다.

‘AI 어시스턴트’를 정액제로 판매하던 사람들은 사용자가 행동을 바꾸지 않을 거라 가정했지만, 실제로는 바뀌었습니다. 언제나 그렇듯이요.

두 번째는 공급 측면이 협조를 멈췄다는 점입니다—메모리와 GPU 경제성이 우리에게 불리하게 돌아가고 있습니다.

메모리는 4배, GPU는 95% 이상 비쌌다

최신 학습과 추론은 고대역폭 메모리를 갖춘 Nvidia 가속기를 사용합니다. 이제 한계는 트랜지스터가 아니라 HBM과 이를 연산 다이에 결합하는 고급 패키징에 있습니다.

Morgan Stanley는 새로운 NVIDIA VR200의 부품 비용(BOM)이 95% 상승할 것으로 추정했으며, 그 중 메모리만으로도 435% 성장했다고 합니다.

이 한계는 한 공장 수준입니다. TSMC의 CoWoS 패키징 라인이 가속기 공급의 병목이며, SK Hynix가 HBM을 독점하고 삼성과 Micron이 그 뒤를 잇습니다. 이들은 하루아침에 생산량을 늘릴 수 없습니다. 최소 18~36개월의 투자 기간이 필요하고, 이 기간은 수요를 10배 이상 과소평가한 상황을 전제로 계획되었습니다.

따라서 GPU 가격은 희소성 가격의 전형입니다. 현재 최상위 가속기는 이전 세대 대비 약 2배 비싸며, HBM 가격은 18개월 만에 4배 상승했습니다. 전력과 냉각도 이제 실제 제약이 되어서, 하이퍼스케일러들은 “우리는 기가와트 규모 캠퍼스를 건설한다”는 스토리와 원자력 PPA 보도자료를 내놓고 있습니다.

Anthropic의 CFO는 3월에 선서한 바에 따르면, 회사에서 컴퓨팅에 100억 달러를 쓰고 매출은 50억 달러에 불과했다는 주장(Ed Zitron이 계산함)고 밝혔습니다. 연구소들은 추론 비용에 빠져 있습니다. 빛을 유지하려면 가격을 올릴 수밖에 없습니다.

정액제 AI 제품을 판매하던 기업들은 이제 자신들이 만든 마진 문제에 직면했습니다. 어느 한쪽 곡선이 자신들에게 유리하게 휘어지길 기대했지만, 그 기대는 깨졌고, 앞으로도 깨질 가능성이 높으며, 그들의 가격 가정에 맞는 시점도 보장되지 않습니다.

앞으로의 변화

제품 관점이 바뀝니다. “어디에 AI를 추가할까?”에서 “어떤 사용 사례가 소모된 추론 비용을 회수할 수 있을까?”로 전환됩니다. 이는 작성하기 더 어려운 로드맵이며, 대부분의 제품 팀이 아직 내면화하지 못한 가격 구조도 바뀝니다.

비용 변동을 다루는 세 가지 아키텍처가 있습니다. 새롭지는 않지만, 좌석 기반 판매에 익숙한 영업팀에게는 불편합니다.

Per-action(행위당 과금). 모든 API 호출, 생성, 에이전트 단계마다 가격이 매겨집니다. 매출은 비용과 동일한 이벤트에 연동되므로 비용과 함께 스케일합니다. Twilio는 2008년부터, AWS는 2006년부터 이 방식을 사용했습니다. 단점은 투명성이 양쪽 모두에 영향을 미친다는 점—고객이 사용량을 보고 협상할 수 있습니다. 장점은 파워 유저가 시스템을 얼마나 많이 활용할지 추측할 필요가 없다는 것입니다.

Credits(크레딧). 선불 형태의 버킷입니다. 고객이 100,000 크레딧을 구매하고, 원하는 만큼 사용한 뒤 다시 충전합니다. 크레딧은 현금 흐름을 부드럽게 하고, 여러 추론 제공자를 하나의 단위로 묶어 모델 비용을 혼합할 수 있게 해 줍니다. 함정은 파손입니다. Snowflake 크레딧은 인프라이며 고객이 무엇을 사는지 이해합니다. 선물 카드 형태의 크레딧은 떠돌이 자산이며, 고객은 어느 쪽을 샀는지 알 수 있습니다. 두 번째 형태는 한 번만 사용할 수 있습니다.

Hybrid(하이브리드). 기본 좌석에 포함된 크레딧과 초과 사용량에 대한 계량 과금이 결합된 형태입니다. 대부분의 엔터프라이즈 영업은 계약에 좌석 수가 여전히 기준이 되고, 미터가 안전 밸브 역할을 하기 때문에 별다른 저항 없이 받아들입니다. 이는 AI‑네이티브 제품이 첫 번째 가격 재조정 주기 내에 수렴하는 설계입니다. 제가 가장 선호하는 방식은 아니지만, 실용적입니다.

핵심은 형태 자체가 아니라 비용 라인이 움직일 때 매출 라인도 움직이는가입니다. 좌석 기반은 비용이 고정돼 있다고 가정하는 유일한 아키텍처입니다.

그 외 모든 방식은 매출을 기본 이벤트에 인덱싱하는 변형입니다.

불가능한 선택

가격을 비용에 맞춰 움직일 수 있다면, 계속해서 제품을 개발할 수 있습니다.

에이전트 기반 워크플로, 더 무거운 추론 모델, 파워 유저를 위한 느리고 비싼 기능을 제공하고, 그에 대한 대가를 받을 방법이 있습니다.

하지만 좌석 기반(또는 정액제 등)으로 고정돼 있다면 두 가지 손실 옵션 중 하나를 선택해야 합니다. 마진을 먹고 고객 사용량이 매 분기마다 늘어날수록 마진이 압축되는 것을 감수하거나, 저가 티어에서 AI를 빼고 활성화율이 낮은 가격대 코호트에서 이탈하는 것을 감수해야 합니다.

두 시나리오 모두 다음 이사회 자료에 명확히 드러날 것입니다.

어느 쪽도 즐거운 선택은 아닙니다.

현재 AI 가격은 원래 사라질 운명이었다.

우리가 집단적으로 2차 사고를 잊어버린 걸까?

메모리는 4배, GPU는 95% 이상 비쌌다

앞으로의 변화

불가능한 선택

관련 글

AI를 사용해 더 나은 코드를 더 천천히 작성하기

산책이 앉아 있는 것보다 더 큰 창의성을 촉진할 수 있다(2014)

Microsoft Copilot Cowork 파일 유출

요티 연령 확인, 얼굴 사진과 기기 지문을 제3자와 공유