OpenAI의 새로운 실시간 음성 모델은 생각하고, 번역하고, 필사할 수 있습니다 — 개발자가 알아야 할 사항

발행: 3일 전 (2026년 5월 8일 PM 10:36 GMT+9)

5 분 소요

원문: Dev.to

Source: Dev.to

Overview

OpenAI는 API를 통해 세 가지 실시간 음성 모델을 공개했습니다:

GPT‑Realtime‑2 – GPT‑5 수준의 추론을 갖춘 음성 대화 모델로, 대화 중에 침묵 없이 도구를 호출할 수 있습니다(“프리앰블” 기능).
GPT‑Realtime‑Translate – 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역하며, 어조와 감정을 보존하는 엔드‑투‑엔드 오디오 처리를 사용합니다.
GPT‑Realtime‑Whisper – 화자가 말하는 즉시 단어를 전달하는 스트리밍 음성‑텍스트 변환 모델로, 실시간 캡션 및 회의 기록에 적합합니다.

세 모델 모두 오늘부터 Realtime API를 통해 사용할 수 있습니다.

Models

GPT‑Realtime‑2

GPT‑5와 비교할 만한 수준의 추론을 수행하는 음성 인터랙션을 지원합니다.
말을 계속하면서 도구를 호출할 수 있어, 대기 시간이 없습니다.
“프리앰블”을 사용해 행동을 서술합니다(예: “일정을 확인해 보겠습니다… 12분 뒤에 Alex Kim과 회의가 잡혀 있습니다.”).

GPT‑Realtime‑Translate

70개 이상의 원본 언어를 13개 목표 언어로 실시간 번역합니다.
중간 텍스트 없이 엔드‑투‑엔드 오디오 처리를 수행해 화자의 감정과 어조를 보존합니다.

GPT‑Realtime‑Whisper

스트리밍 전사 기능을 제공하며, 화자가 말하는 즉시 단어가 표시됩니다.
실시간 캡션, 회의 기록, 접근성 활용 사례에 적합합니다.

Connection Methods

Realtime API는 세 가지 연결 방식을 지원합니다:

Method	Typical Use	Latency
WebRTC	브라우저 기반 애플리케이션	가장 낮음
WebSocket	서버‑사이드 통합, 더 많은 제어 가능	낮음
SIP	전화 통합	낮음

Developer‑Relevant Specs

Context window: 128 K 토큰 (32 K에서 증가).
중단이 발생해도 컨텍스트를 유지합니다.
시스템 프롬프트에 대한 지시 수행 능력이 향상되었습니다.
스트림 중에 언어 전환을 지원합니다.
생각 사이에 짧은 일시 정지를 두는 것이 가장 좋습니다(문서에서는 “turn‑based”라고 함).
가끔씩 환각 현상이 발생할 수 있습니다.

Pricing

Resource	Input	Output
Text tokens	$4 / M	$16 / M
Audio tokens	$32 / M	$64 / M
Translation model	—	$0.034 / minute

참고로 인간 동시통역사의 비용은 분당 $25–44 정도입니다.

Technical Details

원시 오디오를 엔드‑투‑엔드로 처리합니다(음성‑텍스트‑음성 파이프라인이 없음).
화자의 감정과 음성 특성을 보존합니다.
짧은 일시 정지(“turn‑based”)를 활용해 응답 품질을 향상시킵니다.
스트림 중에 언어 전환을 허용합니다.

엔드‑투‑엔드 접근 방식이 핵심 차별점입니다. 기존 파이프라인은 각 단계마다 음성 뉘앙스를 잃지만, 이 모델들은 중간 텍스트 단계를 완전히 생략합니다.

Use Cases

고객 지원 에이전트 – 추론, 계정 데이터 조회, 요청 처리 등을 전부 음성으로 수행.
실시간 번역 레이어 – 인간 통역사 비용의 일부만으로 국제 회의를 가능하게 함.
실시간 캡션 시스템 – 스트리밍, 회의, 접근성을 위한 저지연 자막 제공.
다국어 음성 비서 – 자연스러운 코드 스위칭 처리.
전화봇(SIP) – 전화 회선에서 인간과 같은 대화를 제공.

Resources

관련 글

아무도 이야기하지 않는 격차: 학생, 기업 및 테크놀로지 압박

아무도 말하지 않는 격차: 현재 인도에서 CS 학생이 된다는 것은 결승선이 계속 움직이는 레이스를 뛰는 것과 같습니다. 기업들은 최신 기술을 갖춘 인재를 원하고, t...

데이터베이스 경고 신호를 식별하고 무중단 마이그레이션을 계획하는 방법

소개 Database 중단은 종종 최악의 순간에 발생하여, 화난 사용자, 스트레스를 받은 이해관계자, 그리고 강도 높은 압박 속에서 문제를 해결해야 하는 상황에 처하게 됩니다.

동시 10K 사용자에게 LLM 토큰 스트리밍

코더에서 아키텍트로: Claude와 MCP를 활용해 워크플로우를 재구성한 방법

AI‑Augmented Engineering: From Manual Coding to System Architecture “AI anxiety”는 종종 창조성이 빼앗긴다는 두려움에서 비롯됩니다. 수동 코딩에 집착하는…