OpenAI 在其 API 中推出新的语音智能功能

发布: (2026年5月8日 GMT+8 06:24)
2 分钟阅读
原文: TechCrunch

Source: TechCrunch

新语音模型

GPT‑Realtime‑2

  • 一个用于创建逼真语音模拟并与用户对话的语音模型。
  • 融入了 GPT‑5 级别的推理能力,以处理更复杂的用户请求,较其前身(GPT‑Realtime‑1.5)有所提升。
  • 了解更多关于 GPT‑Realtime‑2 的信息

GPT‑Realtime‑Translate

  • 提供实时翻译服务,能够在对话流程中“跟上”用户的节奏。
  • 支持 70+ 种输入语言(模型能够理解的语言)和 13 种输出语言(模型能够说的语言)。
  • 支持的语言列表

GPT‑Realtime‑Whisper

  • 提供实时语音转文字功能,能够在交互进行时捕获口语内容。

“我们推出的这些模型将实时音频从简单的呼叫‑响应转向能够真正完成工作的语音界面:倾听、推理、翻译、转录,并在对话展开时采取行动,”公司表示。

潜在使用场景

这些更新对以下领域尤为有价值:

  • 扩展客服能力
  • 教育平台
  • 媒体制作
  • 活动管理
  • 创作者平台
  • 以及其他受益于实时语音交互的应用

安全措施

OpenAI 已实施防护措施,以防止滥用,如垃圾信息、欺诈或其他形式的在线侵害。特定触发条件会中止违反公司有害内容指南的对话。

可用性与定价

所有新语音模型均可通过 OpenAI 的 Realtime API 使用。

  • TranslateWhisper 按分钟计费。
  • GPT‑Realtime‑2 按 token 消耗计费。
0 浏览
Back to Blog

相关文章

阅读更多 »

旧金山的住房市场已经失控

近期高端销售——旧金山房地产历来并不容易获取,但目前在该市高端市场上发生的创纪录的销售正是一个测试……