95%의 기업이 AI 예산에 불을 붙이고 있다
Source: Dev.to
AI 지출 급증
- $30 billion – $40 billion이(가) 지난 2년 동안 기업 AI에 투입되었습니다.
- CEO들은 실적 발표에서 반복적으로 “transformational AI capabilities”(변혁적인 AI 역량)를 약속했습니다.
- LinkedIn은 prompt engineering과 “AI‑first cultures”(AI 우선 문화)에 관한 게시물로 넘쳐납니다.
- 모든 기술 공급업체가 이제 제품을 **“AI‑powered”(AI 기반)**이라고 브랜드합니다.
수익 (또는 그 부재)
최근 State‑of‑AI 보고서에 따르면:
- **≈ 95 %**의 조직이 생성 AI에 투자하고 있지만 측정 가능한 수익이 전혀 없음을 보고 있습니다.
- 남은 5 %—기업, 중간 규모 기업, 그리고 몇몇 민첩한 스타트업의 혼합—은 수백만 달러의 실제 가치를 창출하고 있습니다.
GenAI 격차
두 그룹 사이의 격차는 GenAI Divide라고 불립니다.
당신이 잘못된 편에 있다면, 아무리 많은 “prompt‑optimization workshops”을 해도 이를 메울 수 없습니다.
챗봇 묘지
대부분의 생성형 AI 도입은 문제를 찾는 솔루션이었습니다. 이 평가에 동의하지 않으시나요?
- 기업들은 아무도 사용하지 않는 챗봇을 만들었습니다.
- 직원들이 동료에게 직접 물어보는 것을 선호해 우회하는 내부 지식 도우미를 만들었습니다.
- 여전히 인간 편집이 너무 많이 필요해 처음부터 쓰는 것이 더 빨랐을 콘텐츠 생성 자동화를 도입했습니다.
기술은 작동합니다. 사용 사례는 작동하지 않습니다.
성공한 5 %는 더 똑똑하거나 운이 좋은 것이 아니라, AI가 실제 운영 병목을 해결할 수 있는 워크플로를 찾아냈기 때문입니다—비용이 많이 들고, 시간이 많이 소요되며, AI 구현이 무너지게 하는 미묘한 인간 판단을 필요로 하지 않는 작업이었습니다. 그들은 실제로 성과를 끌어올리는, 화려하지 않지만 대량이며 프로세스 중심인 일을 발견했습니다.
Source: …
Voice AI: 가치가 있는 인프라 레이어
비즈니스 세계가 텍스트 기반 AI에 집착하고 있는 동안, 음성‑AI 에이전트는 많은 사람들이 전혀 눈치채지 못한 변화를 겪었습니다.
자동 전화 시스템에 대한 당신의 머릿속 모델이 아직도 “영업은 1번, 지원은 2번을 누르세요”라면, 당신은 약 3년 정도 뒤처진 것입니다. 현대의 음성‑AI 스택은 IVR 2.0을 훨씬 뛰어넘어, 같은 카테고리로 부르는 것이 거의 오해를 불러일으킬 정도입니다. 우리는 인간 개입 없이 복잡하고 다단계인 고객 상호작용을 처리할 수 있는 완전 자율 대화 엔드포인트에 대해 이야기하고 있습니다.
지난 6개월 동안 여러 음성‑AI 에이전트 플랫폼을 테스트해 보았으며, 기술은 조용히 전환점에 도달했습니다. 개선이 점진적인 것이 아니라 범주 자체가 바뀐 수준입니다.
- TTS와 전사 그 이상 – 진정한 돌파구는 텍스트‑투‑스피치 품질이나 전사 정확도(두 영역 모두 크게 향상됨)만이 아닙니다.
- 오케스트레이션 레이어 – 현대 음성‑AI 에이전트는 병렬 LLM 체인을 실행해 실시간으로 다중 의도 쿼리를 파싱할 수 있습니다.
“주소를 업데이트하고, 주문 상태를 확인하고, 그리고 지난달에 설정한 구독도 취소해줄 수 있나요?”
시스템은 세 가지 요청을 한 번에 처리하면서 대화 흐름을 놓치지 않습니다.
- 긴 통화에서도 대화 상태를 유지하고 컨텍스트 붕괴가 발생하지 않음.
- 대화 중에 API 워크플로를 트리거—CRM 업데이트, 티켓 생성, 리드 검증, OTP 확인 수행—동시에 고객과 대화 지속.
- 온‑디바이스 캐싱 및 스트리밍 추론을 통해 지연 시간을 동적으로 조정, 이전 시스템에서 느껴지던 어색한 멈춤이 사라지고 있음.
아무도 말하지 않는 비밀 소스
대부분의 사람들이 과소평가하는 부분은 진정한 전이중 오디오입니다.
인간 대화는 턴 기반이 아닙니다. 우리는 겹쳐 말하고, 끊고, 상대가 아직 말하고 있을 때 “어‑” 혹은 “맞아”라고 말합니다. 이미 요점을 이해했을 때 서로 말을 끊기도 합니다. 전통적인 음성 시스템은 이를 처리하지 못했습니다—침묵을 기다렸다가 응답했죠. 기계적이었기 때문에 그렇게 느껴졌습니다.
듣기와 말하기를 동시에 수행할 수 있는 능력은 현대 음성‑AI를 진정 인간 수준으로 느끼게 합니다. 더 중요한 점은 평균 통화 시간이 20 %–40 % 감소한다는 것입니다. 이는 단순한 UX 개선이 아니라 첫 달부터 손익계산서(P&L)에 나타나는 직접적인 비용 절감 효과입니다.
적응형 끊김 처리
- 적응형 끊김 처리는 자연스러운 대화 UX를 위한 비밀 소스입니다.
- 고객이 문장 중간에 끊을 때 AI는 다음을 수행해야 합니다:
- 끊김을 인식한다.
- 현재 응답을 부드럽게 포기한다.
- 고객이 실제로 논의하고자 하는 내용으로 전환한다.
이를 잘못 구현하면 좌절감이 생기고, 제대로 구현하면 고객은 인간과 대화하고 있다는 사실을 잊게 됩니다.
실제 사례
Sloane 같은 기업은 이 능력을 중심으로 전체 모델을 구축했습니다—AI 전화 어시스턴스가 기업의 인바운드·아웃바운드 전화를 처리하면서, 이전 세대 음성 자동화에서 발생하던 불쾌감(uncanny valley) 문제를 해결합니다. 이는 실제로 수익을 창출하는, 워크플로에 특화된 AI 배포의 좋은 예입니다.
이 방향성
Voice‑AI 에이전트는 이제 인프라 계층이 되고 있으며, 단순한 기능에 그치지 않습니다. 향후 18개월 안에, 여러분의 비즈니스가 AI 전화 시스템을 사용하는가가 문제가 아니라 어떤 기술을 사용하는가가 문제가 될 것입니다. 1세대 솔루션을 도입한 기업은 곧 ≈ 80 %의 통화량을 자율적으로 처리할 수 있는 에이전트를 배치한 경쟁사에 뒤처지게 됩니다.
GenAI 격차
이 격차는 누가 더 많은 돈을 썼는지, 누가 최고의 데이터 사이언스 팀을 보유했는지가 아니라 다음을 실현한 기업에 달려 있습니다.
- 실제 운영 문제를 파악하고 AI를 활용해 해결한 경우.
- 과대광고에 휘말려 비즈니스 지표에 영향을 주지 못하는 인상적인 데모만 만든 경우.
텍스트 기반 생성 AI의 향후 전망
- 사용 사례가 성숙할 것이다.
- 구현이 개선될 것이다.
현재 기술은 아직 자리를 잡아가고 있다. (간략히 생략)
핵심 요약
Hey, 재무제표에 실제로 반영되는 AI를 찾고 있다면, 스마트 머니는 음성 기술에 몰리고 있습니다.
- **95 %**의 조직이 챗봇을 쫓으며 예산을 소진했습니다.
- 나머지 **5 %**는 전화 시스템을 자동화했으며, 이미 측정 가능한 ROI를 얻고 있습니다.