OpenAI 在其 API 中推出新的语音智能功能
发布: (2026年5月8日 GMT+8 06:24)
2 分钟阅读
原文: TechCrunch
Source: TechCrunch
新语音模型
GPT‑Realtime‑2
- 一个用于创建逼真语音模拟并与用户对话的语音模型。
- 融入了 GPT‑5 级别的推理能力,以处理更复杂的用户请求,较其前身(GPT‑Realtime‑1.5)有所提升。
- 了解更多关于 GPT‑Realtime‑2 的信息
GPT‑Realtime‑Translate
- 提供实时翻译服务,能够在对话流程中“跟上”用户的节奏。
- 支持 70+ 种输入语言(模型能够理解的语言)和 13 种输出语言(模型能够说的语言)。
- 支持的语言列表
GPT‑Realtime‑Whisper
- 提供实时语音转文字功能,能够在交互进行时捕获口语内容。
“我们推出的这些模型将实时音频从简单的呼叫‑响应转向能够真正完成工作的语音界面:倾听、推理、翻译、转录,并在对话展开时采取行动,”公司表示。
潜在使用场景
这些更新对以下领域尤为有价值:
- 扩展客服能力
- 教育平台
- 媒体制作
- 活动管理
- 创作者平台
- 以及其他受益于实时语音交互的应用
安全措施
OpenAI 已实施防护措施,以防止滥用,如垃圾信息、欺诈或其他形式的在线侵害。特定触发条件会中止违反公司有害内容指南的对话。
可用性与定价
所有新语音模型均可通过 OpenAI 的 Realtime API 使用。
- Translate 和 Whisper 按分钟计费。
- GPT‑Realtime‑2 按 token 消耗计费。