클라우드 버리고 로컬 AI… 두 미니 PC로 매일 수백만 토큰 처리해 API 비용 절감
출처: Tom’ s Hardware
(이미지 출처: Framework)
헤비 AI 사용자들에게 현재의 경제 상황이 점점 어려워지고 있습니다. 지난 1년간 주요 연구소들은 가격을 올리면서 동시에 사용량을 제한하고 있습니다 — 더 엄격한 요금제 한도, 저가형 플랜에 대한 더 작은 컨텍스트 창, 혹은 고가 플랜 뒤에 숨겨진 기능 재배치 등 다양한 방식으로요. 명목상 per‑token 비용은 하락했지만 실제 사용자에게는 상황이 더 복잡합니다: 처리량 증가, 복잡한 워크플로우, 새로운 툴링 요구 등이 월간 청구서를 올리게 만들고 있습니다.
동시에 오픈 웨이트 모델은 빠르게 발전했고, 소비자 하드웨어도 더욱 강력해졌으며, LM Studio, Ollama, llama.cpp와 같은 도구들은 1년 전보다 현저히 지역 배포를 쉽게 만들었습니다. 결과적으로 자체 장비에서 모델을 실행하는 데 새로운 활기가 불타고 있습니다.
Chris Stokel‑Walker는 Tom’s Hardware에 기여하는 저자로, 기술 분야와 그 일상 생활에 미치는 영향에 초점을 맞춘 인물입니다— 온라인과 오프라인 모두. 그는 2024년에 출간한 ‘How AI Ate the World’ 외에도 ‘TikTok Boom’, ‘YouTubers’, 그리고 ‘The History of the Internet in Byte‑Sized Chunks’를 집필했습니다.
(이미지 출처: Framework)