OpenAI의 새로운 실시간 음성 모델은 생각하고, 번역하고, 필사할 수 있습니다 — 개발자가 알아야 할 사항

발행: (2026년 5월 8일 PM 10:36 GMT+9)
5 분 소요
원문: Dev.to

Source: Dev.to

Overview

OpenAI는 API를 통해 세 가지 실시간 음성 모델을 공개했습니다:

  • GPT‑Realtime‑2 – GPT‑5 수준의 추론을 갖춘 음성 대화 모델로, 대화 중에 침묵 없이 도구를 호출할 수 있습니다(“프리앰블” 기능).
  • GPT‑Realtime‑Translate – 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역하며, 어조와 감정을 보존하는 엔드‑투‑엔드 오디오 처리를 사용합니다.
  • GPT‑Realtime‑Whisper – 화자가 말하는 즉시 단어를 전달하는 스트리밍 음성‑텍스트 변환 모델로, 실시간 캡션 및 회의 기록에 적합합니다.

세 모델 모두 오늘부터 Realtime API를 통해 사용할 수 있습니다.

Models

GPT‑Realtime‑2

  • GPT‑5와 비교할 만한 수준의 추론을 수행하는 음성 인터랙션을 지원합니다.
  • 말을 계속하면서 도구를 호출할 수 있어, 대기 시간이 없습니다.
  • “프리앰블”을 사용해 행동을 서술합니다(예: “일정을 확인해 보겠습니다… 12분 뒤에 Alex Kim과 회의가 잡혀 있습니다.”).

GPT‑Realtime‑Translate

  • 70개 이상의 원본 언어를 13개 목표 언어로 실시간 번역합니다.
  • 중간 텍스트 없이 엔드‑투‑엔드 오디오 처리를 수행해 화자의 감정과 어조를 보존합니다.

GPT‑Realtime‑Whisper

  • 스트리밍 전사 기능을 제공하며, 화자가 말하는 즉시 단어가 표시됩니다.
  • 실시간 캡션, 회의 기록, 접근성 활용 사례에 적합합니다.

Connection Methods

Realtime API는 세 가지 연결 방식을 지원합니다:

MethodTypical UseLatency
WebRTC브라우저 기반 애플리케이션가장 낮음
WebSocket서버‑사이드 통합, 더 많은 제어 가능낮음
SIP전화 통합낮음

Developer‑Relevant Specs

  • Context window: 128 K 토큰 (32 K에서 증가).
  • 중단이 발생해도 컨텍스트를 유지합니다.
  • 시스템 프롬프트에 대한 지시 수행 능력이 향상되었습니다.
  • 스트림 중에 언어 전환을 지원합니다.
  • 생각 사이에 짧은 일시 정지를 두는 것이 가장 좋습니다(문서에서는 “turn‑based”라고 함).
  • 가끔씩 환각 현상이 발생할 수 있습니다.

Pricing

ResourceInputOutput
Text tokens$4 / M$16 / M
Audio tokens$32 / M$64 / M
Translation model$0.034 / minute

참고로 인간 동시통역사의 비용은 분당 $25–44 정도입니다.

Technical Details

  • 원시 오디오를 엔드‑투‑엔드로 처리합니다(음성‑텍스트‑음성 파이프라인이 없음).
  • 화자의 감정과 음성 특성을 보존합니다.
  • 짧은 일시 정지(“turn‑based”)를 활용해 응답 품질을 향상시킵니다.
  • 스트림 중에 언어 전환을 허용합니다.

엔드‑투‑엔드 접근 방식이 핵심 차별점입니다. 기존 파이프라인은 각 단계마다 음성 뉘앙스를 잃지만, 이 모델들은 중간 텍스트 단계를 완전히 생략합니다.

Use Cases

  • 고객 지원 에이전트 – 추론, 계정 데이터 조회, 요청 처리 등을 전부 음성으로 수행.
  • 실시간 번역 레이어 – 인간 통역사 비용의 일부만으로 국제 회의를 가능하게 함.
  • 실시간 캡션 시스템 – 스트리밍, 회의, 접근성을 위한 저지연 자막 제공.
  • 다국어 음성 비서 – 자연스러운 코드 스위칭 처리.
  • 전화봇(SIP) – 전화 회선에서 인간과 같은 대화를 제공.

Resources

0 조회
Back to Blog

관련 글

더 보기 »