OpenAI, API에서 새로운 음성 인텔리전스 기능을 출시
발행: (2026년 5월 8일 AM 07:24 GMT+9)
3 분 소요
원문: TechCrunch
Source: TechCrunch
새로운 음성 모델
GPT‑Realtime‑2
- 사용자와 대화할 수 있는 현실적인 음성 시뮬레이션을 만들기 위해 설계된 음성 모델입니다.
- GPT‑5‑급 추론을 통합하여 더 복잡한 사용자 요청을 처리하며, 이전 모델(GPT‑Realtime‑1.5)보다 향상되었습니다.
- GPT‑Realtime‑2에 대해 자세히 알아보기
GPT‑Realtime‑Translate
- 대화 흐름에 맞춰 “실시간” 번역 서비스를 제공합니다.
- 70개 이상의 입력 언어(이해 가능한 언어)와 13개 출력 언어(말할 수 있는 언어)를 지원합니다.
- 지원되는 언어
GPT‑Realtime‑Whisper
- 실시간 음성‑텍스트 변환 기능을 제공하여, 대화가 진행되는 동안 말한 내용을 바로 캡처합니다.
“우리가 출시하는 모델들은 실시간 오디오를 단순한 호출‑응답에서 실제로 작업을 수행할 수 있는 음성 인터페이스로 이동시킵니다: 듣고, 추론하고, 번역하고, 전사하며, 대화가 진행되는 동안 행동을 취합니다,” 라고 회사는 말했습니다.
잠재적 사용 사례
이 업데이트는 다음과 같은 분야에 유용합니다:
- 고객 서비스 역량 확대
- 교육 플랫폼
- 미디어 제작
- 이벤트 관리
- 크리에이터 플랫폼
- 실시간 음성 상호작용을 활용할 수 있는 기타 애플리케이션
안전 조치
OpenAI는 스팸, 사기, 기타 온라인 악용을 방지하기 위한 가드레일을 구현했습니다. 특정 트리거가 회사의 유해 콘텐츠 가이드라인을 위반하는 대화를 차단할 수 있습니다.
이용 가능 여부 및 가격
모든 새로운 음성 모델은 **OpenAI의 Realtime API**를 통해 이용할 수 있습니다.
- Translate와 Whisper는 분당 요금이 부과됩니다.
- GPT‑Realtime‑2는 토큰 사용량에 따라 요금이 부과됩니다.