기술 기업들이 저렴한 AI 모델을 받아들일 수 있을까?
출처: TechCrunch
AI 붐은 한 가지 기본 가정 위에 세워졌습니다: 더 큰 모델일수록 더 강력하고, 가장 강력한 모델이 승리한다는 것이죠. 이제 업계는 그 가정이 깨지기 시작하면 어떤 일이 일어날지 곧 알게 될 것입니다.
비용이 상승하면서 사용자는 이미 더 작고 저렴한 모델을 다시 살펴볼 압박을 받고 있습니다. 이 비용 의식 모델 쇼핑(cost-conscious model‑shopping)은 새로운 현상이며, 산업에 어떤 영향을 미칠지는 아직 불투명하지만 그 파급력은 클 것으로 보입니다.
가장 명확히 제시한 예측은 Coinbase 공동창업자 Brian Armstrong이 내놓은 것으로, “대부분의 작업이 저렴한 모델로 이동할 것”이라고 말했습니다.
“지능에 대한 수요는 거의 무한에 가깝지만, 12~18개월 안에 **80%**의 워크로드가 99% 저렴한 모델에서 실행될 것입니다.” Armstrong은 X에 이렇게 적었습니다. “**20%**의 워크로드는 여전히 최신 세대 모델에서 실행될 것이며, 여기서는 IQ 극대화가 중요합니다.”
Armstrong의 예측이 현실이 된다면 AI 산업에 얼마나 큰 변화를 가져올지 과장하기 어렵습니다.
그전까지 대부분의 AI 기업은 품질을 놓고 경쟁했으며, 이는 곧 가장 진보된 모델을 기본으로 사용한다는 뜻이었습니다. 만약 같은 작업을 더 저렴한 모델이 품질 저하 없이 수행할 수 있다면, AI 경제 구조 자체가 대대적으로 바뀔 것입니다. 그리고 무엇보다도 그 절감 효과는 대형 연구소들의 주머니에서 빠져나가게 되므로, IPO를 앞두고 있는 OpenAI와 Anthropic에 큰 재정 타격을 줄 수 있습니다.
이것은 업계에 지진과도 같은 변화를 예고합니다. 핵심 질문은 단 하나: 기업들이 더 작은 모델로 전환할 준비가 되었는가?
초기 테스트 결과에 따르면, 시스템을 적절히 구성하면 저렴한 모델이 품질을 희생하지 않고도 대체할 수 있다고 합니다. 법률 AI 도구 Harvey가 최근 진행한 테스트에서는 추론 비용을 3배 줄이면서 품질은 유지했습니다. 이 테스트는 추론 플랫폼 Fireworks AI와의 협업(performed in partnership)으로 진행됐으며, Claude Opus와 Fireworks’ GLM 5.1을 결합해 가장 무거운 작업은 Opus가 담당하도록 했습니다. 그 결과 서버 사용 시간과 전체 비용이 크게 감소했습니다.
“품질이 최우선이며, 법률 분야에서는 언제나 그렇습니다.”라고 Harvey 공동창업자 Gabe Pereyra는 TechCrunch에 말했습니다. “하지만 품질의 정의는 ‘모든 작업에 가장 강력한 모델을 쓰는 것’에서 ‘가장 효율적으로 정답을 도출하는 최적의 모델을 쓰는 것’으로 진화하고 있습니다.”
이 흐름은 종종 대형 연구소 vs. 중국 모델 혹은 오픈‑웨이트 모델이라는 식으로 논의되지만, 그 핵심은 소유권이 아니라 모델 규모에 있습니다. GPT‑5.5에서 DeepSeek의 V4 Flash로 바꾸면 비용을 절감할 수 있지만, GPT‑5.4‑mini로 전환해도 동일한 효과를 얻을 수 있습니다.
현재 대형 연구소의 자체 추론 인프라와 독립적으로 제공되는 오픈‑웨이트 모델 사이에 가격 전쟁이 벌어지고 있습니다. 작은 모델과 큰 모델 중 어느 쪽이 승리하든, ‘작은 모델’ 자체가 승리한다면 큰 의미를 가집니다.
이 모든 것이 당연하게 보일 수도 있습니다—당연히 필요한 컴퓨팅 자원만 사용해야 하니까요—하지만 이는 지금까지 업계를 장악해 온 스케일‑우선 접근법과는 정반대입니다. **쓴맛 교훈**에 영감을 받은 연구소들은 가능한 가장 컴퓨팅 집약적인 모델을 훈련시키는 데 매진해 왔으며, 투자자들의 대규모 보조금 덕분에 고객들은 가장 최신 옵션을 선택할 이유가 없었습니다.
하지만 토큰 가격이 상승하고 보조금이 감소하면서, 사용자들은 처음으로 비용 압박을 경험하고 있습니다. 새로운 비용 압박이 기업 사용자를 더 작은 모델로 이동시키게 될지는 아직 미지수입니다. 사용자는 호출 횟수를 줄이거나, 컨텍스트 양을 감소시키거나, 혹은 가장 기대가 낮은 배포를 포기함으로써 비용을 절감할 수도 있습니다.
그럼에도 불구하고 대부분의 배포가 더 작은 모델에서도 동일하게 잘 동작한다면, 추론 수요는 크게 위축될 것이며, 최첨단 모델을 훈련시키는 비용을 정당화하는 새로운 질문이 떠오를 것입니다.
우리 기사에 포함된 링크를 통해 구매하시면, 소액의 커미션을 받을 수 있습니다. 이는 편집 독립성에 영향을 주지 않습니다.
Russell Brandom는 2012년부터 기술 산업을 취재해 왔으며, 플랫폼 정책과 신기술을 주로 다룹니다. 이전에는 The Verge와 Rest of World에서 일했으며, Wired, The Awl, MIT Technology Review에도 글을 기고했습니다.
그에게는 russell.brandom@techcrunch.com 또는 Signal(412‑401‑5489)으로 연락할 수 있습니다.