介绍 GPT-5.3-Codex-Spark
Source: OpenAI Blog
研究预览:GPT‑5.3‑Codex‑Spark
一个与 Cerebras 合作构建的更小、更实时的编码模型。
📢 新增功能
- Codex‑Spark 是首个为 即时反馈编码 设计的模型。
- 针对超低延迟硬件进行优化,能够以 > 1,000 令牌/秒 的速度生成文本,同时在真实编程任务中保持高度能力。
- 现已作为 研究预览 面向 ChatGPT Pro 用户提供。
🤝 与 Cerebras 的合作
- 此次发布标志着 1 月宣布的合作的 首个里程碑:
OpenAI × Cerebras partnership。 - 我们正与 Cerebras 合作:
- 扩展数据中心容量。
- 强化端到端用户体验。
- 在未来部署更大的前沿模型。
🛠️ 模型能力
| 特性 | 细节 |
|---|---|
| 上下文窗口 | 128 k 令牌 |
| 输出类型 | 仅文本 |
| 主要用例 | 实时代码编辑、逻辑重塑、UI 微调,立即得到结果 |
| 长时任务 | 仍受支持——Codex‑Spark 补充现有模型,这些模型可自主运行数小时/天/周。 |
🚀 如何访问
- 谁可以使用? ChatGPT Pro 用户(研究预览)。
- 速率限制: Codex‑Spark 有其 独立 的限制;使用量 不计入 您的标准 ChatGPT 配额。
- 可能的限流: 当需求激增时,您可能会遇到访问受限或临时排队,以便我们在所有用户之间平衡可靠性。
📋 我们期待的反馈
- 开发者反馈:关于实时编码工作流的意见。
- 对模型在 即时编辑 与 长时项目 中表现的洞察。
- 对未来改进和功能扩展的建议。
速度与智能
Codex‑Spark 针对交互式工作进行了优化,在此类工作中延迟与智能同等重要。您可以实时与模型协作——在其工作时中断或重定向它——并通过几乎瞬时的响应快速迭代。
由于它针对速度进行了调校,Codex‑Spark 保持其默认工作风格轻量化:
- 最小化、针对性的编辑 – 仅进行您需要的更改。
- 不自动运行测试 – 仅在您请求时才执行测试。
Coding
Codex‑Spark 是一个高度能干的小模型,针对快速推理进行了优化。在 SWE‑Bench Pro 和 Terminal‑Bench 2.0——两个评估代理式软件工程能力的基准上——GPT‑5.3‑Codex‑Spark 展示了强劲的性能,同时完成任务的时间仅为 GPT‑5.3‑Codex 的一小部分。
Source: …
所有模型的延迟改进
在训练 Codex‑Spark 时,我们发现仅靠模型速度不足以满足实时协作的需求。降低整个请求‑响应流水线的延迟变得至关重要。以下端到端的增强已加入我们的框架,并将惠及 所有模型:
我们的改动
- 流式管道 – 优化了响应在客户端 ↔ 服务器之间的流动方式。
- 推理栈 – 重写了关键组件以实现更快的执行。
- 会话初始化 – 让首个可见 token 更早出现,保持 Codex 在迭代过程中的响应性。
- 持久化 WebSocket 连接 – 引入专用的长连接通信通道(默认已在 Codex‑Spark 中启用,随后将在所有模型中启用)。
定量收益
| 指标 | 提升 |
|---|---|
| 客户端/服务器往返开销 | ‑80 % |
| 每个 token 处理开销 | ‑30 % |
| 首个 token 出现时间 (TTFT) | ‑50 % |
对你的意义
- 更快的反馈 – 首个 token 更快出现,提升交互体验。
- 更流畅的迭代 – 降低每个 token 的延迟,使连续编辑更加顺畅。
- 统一的体验 – WebSocket 路径将成为所有模型的默认方式,确保平台整体性能一致。
由 Cerealis 提供动力
Codex‑Spark 运行在 Cerebras 的 Wafer Scale Engine 3 上——这是一款专为高速推理而打造的 AI 加速器,为 Codex 提供了以低延迟为首要目标的服务层。我们与 Cerebras 合作,将这条低延迟通道加入与我们其他服务相同的生产服务栈,使其在 Codex 中无缝工作,并为未来模型的支持奠定基础。
“我们对 GPT‑5.3‑Codex‑Spark 最感兴趣的,是与 OpenAI 以及开发者社区合作,探索快速推理所能实现的可能性——全新的交互模式、新的使用场景,以及根本不同的模型体验。此预览仅是开始。”
— Sean Lie,Cerebras 首席技术官兼联合创始人
- GPU 仍然是我们训练和推理流水线的基础,能够为大规模使用提供最具成本效益的 token 处理。
- Cerebras 通过在极低延迟的工作流中表现卓越,补充了这一基础,缩短了端到端的循环,使 Codex 在迭代时感觉更为灵敏。
- GPU 与 Cerebras 可以在单一工作负载中组合使用,以实现最佳性能。
可用性与详情
Codex‑Spark 今日作为研究预览向 ChatGPT Pro 用户推出,适用于最新版本的:
- Codex 应用
- CLI
- VS Code 扩展
由于它运行在专用低延迟硬件上,使用受到单独的速率限制,可能会根据预览期间的需求进行调整。
API 访问
- 目前仅对少数设计合作伙伴开放。
- 目标:了解开发者希望如何将 Codex‑Spark 集成到他们的产品中。
- 随着我们在真实工作负载下调优集成,未来几周将扩大访问范围。
模型能力
- 仅文本,128 k 令牌上下文窗口。
- 是超快速模型系列中的首个模型。
- 基于开发者反馈的未来增强可能包括:
- 更大的模型
- 更长的上下文长度
- 多模态输入
安全性与评估
- 包含与我们主线模型相同的安全训练,涵盖网络安全相关场景。
- 通过我们的标准部署流程进行评估,其中包括网络安全及其他能力的基线评估。
- 被确定为 未 达到高能力网络安全或生物学的准备框架阈值。
接下来
Codex‑Spark 是通往拥有两种互补模式的 Codex 的第一步:
- 更长视野的推理与执行
- 实时协作以实现快速迭代
随着时间推移,这些模式将会融合。Codex 可以让你保持紧密的交互循环,同时在后台将需要更长时间的工作委派给子代理,或者在需要广度和速度时将任务分配给多个模型并行处理。这意味着你不必在一开始就选择单一模式。
随着模型变得更强大,交互速度成为明显的瓶颈。超高速推理缩短了这一循环,使 Codex 使用起来更自然,并扩展了任何人将想法转化为可运行软件的可能性。