OpenAI의 새로운 실시간 음성 모델은 생각하고, 번역하고, 필사할 수 있습니다 — 개발자가 알아야 할 사항
발행: (2026년 5월 8일 PM 10:36 GMT+9)
5 분 소요
원문: Dev.to
Source: Dev.to
Overview
OpenAI는 API를 통해 세 가지 실시간 음성 모델을 공개했습니다:
- GPT‑Realtime‑2 – GPT‑5 수준의 추론을 갖춘 음성 대화 모델로, 대화 중에 침묵 없이 도구를 호출할 수 있습니다(“프리앰블” 기능).
- GPT‑Realtime‑Translate – 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역하며, 어조와 감정을 보존하는 엔드‑투‑엔드 오디오 처리를 사용합니다.
- GPT‑Realtime‑Whisper – 화자가 말하는 즉시 단어를 전달하는 스트리밍 음성‑텍스트 변환 모델로, 실시간 캡션 및 회의 기록에 적합합니다.
세 모델 모두 오늘부터 Realtime API를 통해 사용할 수 있습니다.
Models
GPT‑Realtime‑2
- GPT‑5와 비교할 만한 수준의 추론을 수행하는 음성 인터랙션을 지원합니다.
- 말을 계속하면서 도구를 호출할 수 있어, 대기 시간이 없습니다.
- “프리앰블”을 사용해 행동을 서술합니다(예: “일정을 확인해 보겠습니다… 12분 뒤에 Alex Kim과 회의가 잡혀 있습니다.”).
GPT‑Realtime‑Translate
- 70개 이상의 원본 언어를 13개 목표 언어로 실시간 번역합니다.
- 중간 텍스트 없이 엔드‑투‑엔드 오디오 처리를 수행해 화자의 감정과 어조를 보존합니다.
GPT‑Realtime‑Whisper
- 스트리밍 전사 기능을 제공하며, 화자가 말하는 즉시 단어가 표시됩니다.
- 실시간 캡션, 회의 기록, 접근성 활용 사례에 적합합니다.
Connection Methods
Realtime API는 세 가지 연결 방식을 지원합니다:
| Method | Typical Use | Latency |
|---|---|---|
| WebRTC | 브라우저 기반 애플리케이션 | 가장 낮음 |
| WebSocket | 서버‑사이드 통합, 더 많은 제어 가능 | 낮음 |
| SIP | 전화 통합 | 낮음 |
Developer‑Relevant Specs
- Context window: 128 K 토큰 (32 K에서 증가).
- 중단이 발생해도 컨텍스트를 유지합니다.
- 시스템 프롬프트에 대한 지시 수행 능력이 향상되었습니다.
- 스트림 중에 언어 전환을 지원합니다.
- 생각 사이에 짧은 일시 정지를 두는 것이 가장 좋습니다(문서에서는 “turn‑based”라고 함).
- 가끔씩 환각 현상이 발생할 수 있습니다.
Pricing
| Resource | Input | Output |
|---|---|---|
| Text tokens | $4 / M | $16 / M |
| Audio tokens | $32 / M | $64 / M |
| Translation model | — | $0.034 / minute |
참고로 인간 동시통역사의 비용은 분당 $25–44 정도입니다.
Technical Details
- 원시 오디오를 엔드‑투‑엔드로 처리합니다(음성‑텍스트‑음성 파이프라인이 없음).
- 화자의 감정과 음성 특성을 보존합니다.
- 짧은 일시 정지(“turn‑based”)를 활용해 응답 품질을 향상시킵니다.
- 스트림 중에 언어 전환을 허용합니다.
엔드‑투‑엔드 접근 방식이 핵심 차별점입니다. 기존 파이프라인은 각 단계마다 음성 뉘앙스를 잃지만, 이 모델들은 중간 텍스트 단계를 완전히 생략합니다.
Use Cases
- 고객 지원 에이전트 – 추론, 계정 데이터 조회, 요청 처리 등을 전부 음성으로 수행.
- 실시간 번역 레이어 – 인간 통역사 비용의 일부만으로 국제 회의를 가능하게 함.
- 실시간 캡션 시스템 – 스트리밍, 회의, 접근성을 위한 저지연 자막 제공.
- 다국어 음성 비서 – 자연스러운 코드 스위칭 처리.
- 전화봇(SIP) – 전화 회선에서 인간과 같은 대화를 제공.