OpenAI 在其 API 中推出新的语音智能功能

发布: 3天前 (2026年5月8日 GMT+8 06:24)

2 分钟阅读

原文: TechCrunch

Source: TechCrunch

新语音模型

GPT‑Realtime‑2

一个用于创建逼真语音模拟并与用户对话的语音模型。
融入了 GPT‑5 级别的推理能力，以处理更复杂的用户请求，较其前身（GPT‑Realtime‑1.5）有所提升。
了解更多关于 GPT‑Realtime‑2 的信息

GPT‑Realtime‑Translate

提供实时翻译服务，能够在对话流程中“跟上”用户的节奏。
支持 70+ 种输入语言（模型能够理解的语言）和 13 种输出语言（模型能够说的语言）。
支持的语言列表

GPT‑Realtime‑Whisper

提供实时语音转文字功能，能够在交互进行时捕获口语内容。

“我们推出的这些模型将实时音频从简单的呼叫‑响应转向能够真正完成工作的语音界面：倾听、推理、翻译、转录，并在对话展开时采取行动，”公司表示。

潜在使用场景

这些更新对以下领域尤为有价值：

扩展客服能力
教育平台
媒体制作
活动管理
创作者平台
以及其他受益于实时语音交互的应用

安全措施

OpenAI 已实施防护措施，以防止滥用，如垃圾信息、欺诈或其他形式的在线侵害。特定触发条件会中止违反公司有害内容指南的对话。

可用性与定价

所有新语音模型均可通过 OpenAI 的 Realtime API 使用。

Translate 和 Whisper 按分钟计费。
GPT‑Realtime‑2 按 token 消耗计费。

相关文章

阅读更多 »

Voice AI 在印度很难。Wispr Flow 正在押注它。

Wispr Flow 在印度的推进印度的互联网用户已经在很大程度上依赖语音笔记、语音搜索和多语言消息。将这些习惯转化为……

Nvidia 已经在今年承诺了 400亿美元的股权 AI 交易

！Jensen Huang，Nvidia Corp.的首席执行官，和来自迪士尼电影《冰雪奇缘》的机器人角色Olaf，在Nvidia GTC的主题演讲期间……

旧金山的住房市场已经失控

近期高端销售——旧金山房地产历来并不容易获取，但目前在该市高端市场上发生的创纪录的销售正是一个测试……

Cloudflare称AI使1100个岗位被淘汰，即使收入创下历史新高

裁员与收入：Cloudflare 在其2026财年第一季度财报中宣布将裁员约20%——约1100名员工。