OpenAI 将 GPT-5 级推理引入实时语音——并改变了语音代理的实际编排能力
Source: VentureBeat
背景
语音代理的运行成本高且编排困难,并不是因为模型无法处理对话,而是因为上下文上限迫使企业在每个部署中构建会话重置、状态压缩和重建层。
新的 OpenAI 语音模型
GPT‑Realtime‑2
OpenAI 将 Realtime‑2 描述为其首个具备 “GPT‑5 级推理” 的语音模型。它能够处理复杂请求,并让对话自然流畅。
GPT‑Realtime‑Translate
Realtime‑Translate 能理解 70 多种语言,并以说话者的速度将其翻译成另外 13 种语言。
GPT‑Realtime‑Whisper
Realtime‑Whisper 是 OpenAI 的新语音转文本转录模型。
这三个模型被集成为离散的编排原语,将对话推理、翻译和转录分别拆分为专用组件,而不是捆绑在单一语音产品中。
架构影响
新模型不再位于单一堆栈或模型内部。虽然 GPT‑Realtime‑2 在技术上可以处理转录,OpenAI 仍将不同任务路由到专用模型:
- Realtime‑Translate 负责多语言语音
- Realtime‑Whisper 负责转录
企业可以将每项任务分配给相应的模型,而不是通过单一的全能语音系统进行路由。这种方式还要求编排架构能够在 128 K token 上下文窗口中管理状态。
竞争
OpenAI 的模型与 Mistral 的 Voxtral 系列竞争,后者同样将转录与目标企业用例分离。
企业应采取的措施
评估这些模型的企业应关注其编排架构,而不仅仅是模型质量。关键考虑因素包括:
- 能够将离散的语音任务路由到专用模型
- 在大上下文窗口(最高 128 K token)中管理状态的能力
- 将新原语集成到现有代理堆栈中
通过解决这些因素,组织可以更好地利用现代语音代理所带来的更丰富数据和提升的用户体验。