介绍 GPT-5.3-Codex-Spark

发布: 3天前 (2026年2月12日 GMT+8 18:00)

9 分钟阅读

原文: OpenAI Blog

Source: OpenAI Blog

研究预览：GPT‑5.3‑Codex‑Spark

一个与 Cerebras 合作构建的更小、更实时的编码模型。

📢 新增功能

Codex‑Spark 是首个为 即时反馈编码 设计的模型。
针对超低延迟硬件进行优化，能够以 > 1,000 令牌/秒 的速度生成文本，同时在真实编程任务中保持高度能力。
现已作为 研究预览 面向 ChatGPT Pro 用户提供。

🤝 与 Cerebras 的合作

此次发布标志着 1 月宣布的合作的 首个里程碑：
OpenAI × Cerebras partnership。
我们正与 Cerebras 合作：
- 扩展数据中心容量。
- 强化端到端用户体验。
- 在未来部署更大的前沿模型。

🛠️ 模型能力

特性	细节
上下文窗口	128 k 令牌
输出类型	仅文本
主要用例	实时代码编辑、逻辑重塑、UI 微调，立即得到结果
长时任务	仍受支持——Codex‑Spark 补充现有模型，这些模型可自主运行数小时/天/周。

🚀 如何访问

谁可以使用？ ChatGPT Pro 用户（研究预览）。
速率限制： Codex‑Spark 有其独立的限制；使用量 不计入 您的标准 ChatGPT 配额。
可能的限流： 当需求激增时，您可能会遇到访问受限或临时排队，以便我们在所有用户之间平衡可靠性。

📋 我们期待的反馈

开发者反馈：关于实时编码工作流的意见。
对模型在 即时编辑 与 长时项目 中表现的洞察。
对未来改进和功能扩展的建议。

速度与智能

Codex‑Spark 针对交互式工作进行了优化，在此类工作中延迟与智能同等重要。您可以实时与模型协作——在其工作时中断或重定向它——并通过几乎瞬时的响应快速迭代。

由于它针对速度进行了调校，Codex‑Spark 保持其默认工作风格轻量化：

最小化、针对性的编辑 – 仅进行您需要的更改。
不自动运行测试 – 仅在您请求时才执行测试。

Coding

Codex‑Spark 是一个高度能干的小模型，针对快速推理进行了优化。在 SWE‑Bench Pro 和 Terminal‑Bench 2.0——两个评估代理式软件工程能力的基准上——GPT‑5.3‑Codex‑Spark 展示了强劲的性能，同时完成任务的时间仅为 GPT‑5.3‑Codex 的一小部分。

Source: …

所有模型的延迟改进

在训练 Codex‑Spark 时，我们发现仅靠模型速度不足以满足实时协作的需求。降低整个请求‑响应流水线的延迟变得至关重要。以下端到端的增强已加入我们的框架，并将惠及 所有模型：

我们的改动

流式管道 – 优化了响应在客户端 ↔ 服务器之间的流动方式。
推理栈 – 重写了关键组件以实现更快的执行。
会话初始化 – 让首个可见 token 更早出现，保持 Codex 在迭代过程中的响应性。
持久化 WebSocket 连接 – 引入专用的长连接通信通道（默认已在 Codex‑Spark 中启用，随后将在所有模型中启用）。

定量收益

指标	提升
客户端/服务器往返开销	‑80 %
每个 token 处理开销	‑30 %
首个 token 出现时间 (TTFT)	‑50 %

对你的意义

更快的反馈 – 首个 token 更快出现，提升交互体验。
更流畅的迭代 – 降低每个 token 的延迟，使连续编辑更加顺畅。
统一的体验 – WebSocket 路径将成为所有模型的默认方式，确保平台整体性能一致。

由 Cerealis 提供动力

Codex‑Spark 运行在 Cerebras 的 Wafer Scale Engine 3 上——这是一款专为高速推理而打造的 AI 加速器，为 Codex 提供了以低延迟为首要目标的服务层。我们与 Cerebras 合作，将这条低延迟通道加入与我们其他服务相同的生产服务栈，使其在 Codex 中无缝工作，并为未来模型的支持奠定基础。

“我们对 GPT‑5.3‑Codex‑Spark 最感兴趣的，是与 OpenAI 以及开发者社区合作，探索快速推理所能实现的可能性——全新的交互模式、新的使用场景，以及根本不同的模型体验。此预览仅是开始。”
— Sean Lie，Cerebras 首席技术官兼联合创始人

GPU 仍然是我们训练和推理流水线的基础，能够为大规模使用提供最具成本效益的 token 处理。
Cerebras 通过在极低延迟的工作流中表现卓越，补充了这一基础，缩短了端到端的循环，使 Codex 在迭代时感觉更为灵敏。
GPU 与 Cerebras 可以在单一工作负载中组合使用，以实现最佳性能。

可用性与详情

Codex‑Spark 今日作为研究预览向 ChatGPT Pro 用户推出，适用于最新版本的：

Codex 应用
CLI
VS Code 扩展

由于它运行在专用低延迟硬件上，使用受到单独的速率限制，可能会根据预览期间的需求进行调整。

API 访问

目前仅对少数设计合作伙伴开放。
目标：了解开发者希望如何将 Codex‑Spark 集成到他们的产品中。
随着我们在真实工作负载下调优集成，未来几周将扩大访问范围。

模型能力

仅文本，128 k 令牌上下文窗口。
是超快速模型系列中的首个模型。
基于开发者反馈的未来增强可能包括：
- 更大的模型
- 更长的上下文长度
- 多模态输入

安全性与评估

包含与我们主线模型相同的安全训练，涵盖网络安全相关场景。
通过我们的标准部署流程进行评估，其中包括网络安全及其他能力的基线评估。
被确定为未达到高能力网络安全或生物学的准备框架阈值。

接下来

Codex‑Spark 是通往拥有两种互补模式的 Codex 的第一步：

更长视野的推理与执行
实时协作以实现快速迭代

随着时间推移，这些模式将会融合。Codex 可以让你保持紧密的交互循环，同时在后台将需要更长时间的工作委派给子代理，或者在需要广度和速度时将任务分配给多个模型并行处理。这意味着你不必在一开始就选择单一模式。

随着模型变得更强大，交互速度成为明显的瓶颈。超高速推理缩短了这一循环，使 Codex 使用起来更自然，并扩展了任何人将想法转化为可运行软件的可能性。