介绍 GPT-5.3-Codex-Spark

发布: (2026年2月12日 GMT+8 18:00)
9 分钟阅读

Source: OpenAI Blog

研究预览:GPT‑5.3‑Codex‑Spark

一个与 Cerebras 合作构建的更小、更实时的编码模型。

📢 新增功能

  • Codex‑Spark 是首个为 即时反馈编码 设计的模型。
  • 针对超低延迟硬件进行优化,能够以 > 1,000 令牌/秒 的速度生成文本,同时在真实编程任务中保持高度能力。
  • 现已作为 研究预览 面向 ChatGPT Pro 用户提供。

🤝 与 Cerebras 的合作

  • 此次发布标志着 1 月宣布的合作的 首个里程碑
    OpenAI × Cerebras partnership
  • 我们正与 Cerebras 合作:
    • 扩展数据中心容量。
    • 强化端到端用户体验。
    • 在未来部署更大的前沿模型。

🛠️ 模型能力

特性细节
上下文窗口128 k 令牌
输出类型仅文本
主要用例实时代码编辑、逻辑重塑、UI 微调,立即得到结果
长时任务仍受支持——Codex‑Spark 补充现有模型,这些模型可自主运行数小时/天/周。

🚀 如何访问

  • 谁可以使用? ChatGPT Pro 用户(研究预览)。
  • 速率限制: Codex‑Spark 有其 独立 的限制;使用量 不计入 您的标准 ChatGPT 配额。
  • 可能的限流: 当需求激增时,您可能会遇到访问受限或临时排队,以便我们在所有用户之间平衡可靠性。

📋 我们期待的反馈

  • 开发者反馈:关于实时编码工作流的意见。
  • 对模型在 即时编辑长时项目 中表现的洞察。
  • 对未来改进和功能扩展的建议。

速度与智能

Codex‑Spark 针对交互式工作进行了优化,在此类工作中延迟与智能同等重要。您可以实时与模型协作——在其工作时中断或重定向它——并通过几乎瞬时的响应快速迭代。

由于它针对速度进行了调校,Codex‑Spark 保持其默认工作风格轻量化:

  • 最小化、针对性的编辑 – 仅进行您需要的更改。
  • 不自动运行测试 – 仅在您请求时才执行测试。

Coding

Codex‑Spark 是一个高度能干的小模型,针对快速推理进行了优化。在 SWE‑Bench ProTerminal‑Bench 2.0——两个评估代理式软件工程能力的基准上——GPT‑5.3‑Codex‑Spark 展示了强劲的性能,同时完成任务的时间仅为 GPT‑5.3‑Codex 的一小部分。

Source:

所有模型的延迟改进

在训练 Codex‑Spark 时,我们发现仅靠模型速度不足以满足实时协作的需求。降低整个请求‑响应流水线的延迟变得至关重要。以下端到端的增强已加入我们的框架,并将惠及 所有模型

我们的改动

  • 流式管道 – 优化了响应在客户端 ↔ 服务器之间的流动方式。
  • 推理栈 – 重写了关键组件以实现更快的执行。
  • 会话初始化 – 让首个可见 token 更早出现,保持 Codex 在迭代过程中的响应性。
  • 持久化 WebSocket 连接 – 引入专用的长连接通信通道(默认已在 Codex‑Spark 中启用,随后将在所有模型中启用)。

定量收益

指标提升
客户端/服务器往返开销‑80 %
每个 token 处理开销‑30 %
首个 token 出现时间 (TTFT)‑50 %

对你的意义

  • 更快的反馈 – 首个 token 更快出现,提升交互体验。
  • 更流畅的迭代 – 降低每个 token 的延迟,使连续编辑更加顺畅。
  • 统一的体验 – WebSocket 路径将成为所有模型的默认方式,确保平台整体性能一致。

由 Cerealis 提供动力

Codex‑Spark 运行在 Cerebras 的 Wafer Scale Engine 3 上——这是一款专为高速推理而打造的 AI 加速器,为 Codex 提供了以低延迟为首要目标的服务层。我们与 Cerebras 合作,将这条低延迟通道加入与我们其他服务相同的生产服务栈,使其在 Codex 中无缝工作,并为未来模型的支持奠定基础。

“我们对 GPT‑5.3‑Codex‑Spark 最感兴趣的,是与 OpenAI 以及开发者社区合作,探索快速推理所能实现的可能性——全新的交互模式、新的使用场景,以及根本不同的模型体验。此预览仅是开始。”
Sean Lie,Cerebras 首席技术官兼联合创始人

  • GPU 仍然是我们训练和推理流水线的基础,能够为大规模使用提供最具成本效益的 token 处理。
  • Cerebras 通过在极低延迟的工作流中表现卓越,补充了这一基础,缩短了端到端的循环,使 Codex 在迭代时感觉更为灵敏。
  • GPU 与 Cerebras 可以在单一工作负载中组合使用,以实现最佳性能。

可用性与详情

Codex‑Spark 今日作为研究预览向 ChatGPT Pro 用户推出,适用于最新版本的:

  • Codex 应用
  • CLI
  • VS Code 扩展

由于它运行在专用低延迟硬件上,使用受到单独的速率限制,可能会根据预览期间的需求进行调整。

API 访问

  • 目前仅对少数设计合作伙伴开放。
  • 目标:了解开发者希望如何将 Codex‑Spark 集成到他们的产品中。
  • 随着我们在真实工作负载下调优集成,未来几周将扩大访问范围。

模型能力

  • 仅文本128 k 令牌上下文窗口
  • 是超快速模型系列中的首个模型。
  • 基于开发者反馈的未来增强可能包括:
    • 更大的模型
    • 更长的上下文长度
    • 多模态输入

安全性与评估

  • 包含与我们主线模型相同的安全训练,涵盖网络安全相关场景。
  • 通过我们的标准部署流程进行评估,其中包括网络安全及其他能力的基线评估。
  • 被确定为 达到高能力网络安全或生物学的准备框架阈值。

接下来

Codex‑Spark 是通往拥有两种互补模式的 Codex 的第一步:

  1. 更长视野的推理与执行
  2. 实时协作以实现快速迭代

随着时间推移,这些模式将会融合。Codex 可以让你保持紧密的交互循环,同时在后台将需要更长时间的工作委派给子代理,或者在需要广度和速度时将任务分配给多个模型并行处理。这意味着你不必在一开始就选择单一模式。

随着模型变得更强大,交互速度成为明显的瓶颈。超高速推理缩短了这一循环,使 Codex 使用起来更自然,并扩展了任何人将想法转化为可运行软件的可能性。

0 浏览
Back to Blog

相关文章

阅读更多 »