介绍 GPT-5.4 mini 和 nano

发布: (2026年3月17日 GMT+8 18:00)
6 分钟阅读

Source: OpenAI Blog

📦 模型亮点

模型大小相较于 GPT‑5 mini 的速度关键优势
GPT‑5.4 mini“mini”(xhigh)> 2× 更快 相比 GPT‑5 mini编码、推理、多模态理解、工具使用;在众多基准测试上接近 GPT‑5.4 的性能
GPT‑5.4 nano“nano”(xhigh)最小且最经济的 GPT‑5.4 版本分类、数据提取、排序、简单编码子代理

两款模型均面向对延迟敏感的产品体验而设计:编码助手、能够快速完成支撑任务的子代理、能够解析截图的计算机使用系统,以及实时多模态应用。

注意 – 在许多情况下,最佳模型并非最大者;而是能够快速响应、可靠使用工具,并且仍能处理复杂专业任务的模型。

🛠️ 何时使用哪种模型

  • GPT‑5.4 mini – 适用于:

    • 快速迭代的编码工作流(针对性编辑、代码库导航、前端生成、调试循环)
    • 结合不同规模模型的系统(例如,大型 GPT‑5.4 负责规划,mini 处理狭窄子任务)
      在 API、Codex 和 ChatGPT 中可用
  • GPT‑5.4 nano – 适用于:

    • 分类、数据抽取、排序
    • 处理支持任务的简单编码子代理
      仅通过 API 提供

Source:

📊 基准性能

1️⃣ 核心基准(所有模型)

模型SWE‑Bench Pro(公开)Terminal‑Bench 2.0ToolathonGPQA DiamondOSWorld‑Verified
GPT‑5.4 (xhigh)57.7 %75.1 %54.6 %93.0 %75.0 %
GPT‑5.4 mini (xhigh)54.4 %60.0 %42.9 %88.0 %72.1 %
GPT‑5.4 nano (xhigh)52.4 %46.3 %35.5 %82.8 %39.0 %
GPT‑5 mini (high¹)45.7 %38.2 %26.9 %81.6 %42.0 %

¹GPT‑5 mini 可用的最高 reasoning_efforthigh

2️⃣ 其他基准

基准GPT‑5.4 (xhigh)GPT‑5.4 mini (xhigh)GPT‑5.4 nano (xhigh)GPT‑5 mini (high¹)
MCP Atlas67.2 %57.7 %56.1 %47.6 %
τ2‑bench (telecom)98.9 %93.4 %92.5 %74.1 %
GPQA Diamond(重新列出)93.0 %88.0 %82.8 %81.6 %
HLE(使用工具)52.1 %41.5 %37.7 %31.6 %
HLE(不使用工具)39.8 %28.2 %24.3 %18.3 %
OSWorld‑Verified(重新列出)75.0 %72.1 %39.0 %42.0 %
MMMU‑Pro(使用 Python)81.5 %78.0 %69.5 %74.1 %
MMMU‑Pro81.2 %76.6 %66.1 %67.5 %
OmniDocBench 1.5(无工具)²(越低越好)0.1090.1260.2410.179
OpenAI MRCR v2 8‑needle 64K‑128K86.0 %47.7 %44.2 %35.1 %
OpenAI MRCR v2 8‑needle 128K‑256K79.3 %33.6 %33.1 %19.4 %
Graphwalks BFS 0K‑128K93.1 %76.3 %73.4 %73.4 %
Graphwalks parents 0‑128K(准确率)89.8 %71.5 %50.8 %64.3 %

² 总体编辑距离。OmniDocBench 在 reasoning_effort 设置为 none 的情况下运行,以体现纯“无推理”基线。

📚 模型在您的技术栈中的定位

API

  • 输入: 文本 & 图像
  • 能力: 工具使用、函数调用、网络搜索、文件搜索、计算机使用、技能
  • 上下文窗口: 400 k 令牌
  • 定价:
    • GPT‑5.4 mini – $0.75 / 1 M 输入令牌,$4.50 / 1 M 输出令牌
    • GPT‑5.4 nano – $0.20 / 1 M 输入令牌,$1.25 / 1 M 输出令牌

Codex

  • 可在 Codex 应用、CLI、IDE 扩展和网页上使用。
  • 仅使用 30 % 的 GPT‑5.4 配额,为较简单的编码任务提供约三分之一的成本。
  • 可将低推理工作委派给 GPT‑5.4 mini 子代理。

ChatGPT

  • 免费 & Go 用户:“思考”功能(通过 + 菜单)使用 GPT‑5.4 mini。
  • 其他所有用户:GPT‑5.4 mini 作为 GPT‑5.4 Thinking 的速率限制回退。

🤖 子代理与系统设计

“与其使用单一模型处理所有任务,开发者可以构建系统,让更大的模型决定 做什么,而更小的模型在规模上快速执行。”

  • 示例:Codex 中,GPT‑5.4 负责规划和最终判断,而 GPT‑5.4 mini 子代理执行并行任务,如搜索代码库、审查大型文件或处理支持文档。
  • Codex 文档(在新窗口打开) 中了解更多关于子代理的信息。

📈 延迟与成本免责声明

延迟估计来源于包含工具调用时长、采样令牌和输入令牌的生产行为仿真。实际延迟可能因许多仿真未捕获的因素而有显著差异。成本基于当前 API 定价,未来可能会变动。推理工作量从 lowxhigh 进行了覆盖。


GPT‑5.4 miniGPT‑5.4 nano 已上线。请选择最能在速度、成本和能力之间取得平衡的模型,以满足您的工作负载!

低成本、低延迟的性能。

0 浏览
Back to Blog

相关文章

阅读更多 »

第13天 – 单代理 vs 多代理系统

一个 Agent 还是多个?这个选择改变一切 🤔🤖🤖 当团队开始构建 agentic 系统时,早期会出现一个关键问题:我们是应该构建一个强大的…

你没有错误地提示它

背景 我在收听《The Pragmatic Engineer》关于“The Third Golden Age of Software Engineering”这一期时,听到 Grady Booch 的讲述。在节目中,他提到…