介绍 GPT-5.4 mini 和 nano
Source: OpenAI Blog
📦 模型亮点
| 模型 | 大小 | 相较于 GPT‑5 mini 的速度 | 关键优势 |
|---|---|---|---|
| GPT‑5.4 mini | “mini”(xhigh) | > 2× 更快 相比 GPT‑5 mini | 编码、推理、多模态理解、工具使用;在众多基准测试上接近 GPT‑5.4 的性能 |
| GPT‑5.4 nano | “nano”(xhigh) | 最小且最经济的 GPT‑5.4 版本 | 分类、数据提取、排序、简单编码子代理 |
两款模型均面向对延迟敏感的产品体验而设计:编码助手、能够快速完成支撑任务的子代理、能够解析截图的计算机使用系统,以及实时多模态应用。
注意 – 在许多情况下,最佳模型并非最大者;而是能够快速响应、可靠使用工具,并且仍能处理复杂专业任务的模型。
🛠️ 何时使用哪种模型
-
GPT‑5.4 mini – 适用于:
- 快速迭代的编码工作流(针对性编辑、代码库导航、前端生成、调试循环)
- 结合不同规模模型的系统(例如,大型 GPT‑5.4 负责规划,mini 处理狭窄子任务)
→ 在 API、Codex 和 ChatGPT 中可用
-
GPT‑5.4 nano – 适用于:
- 分类、数据抽取、排序
- 处理支持任务的简单编码子代理
→ 仅通过 API 提供
Source: …
📊 基准性能
1️⃣ 核心基准(所有模型)
| 模型 | SWE‑Bench Pro(公开) | Terminal‑Bench 2.0 | Toolathon | GPQA Diamond | OSWorld‑Verified |
|---|---|---|---|---|---|
| GPT‑5.4 (xhigh) | 57.7 % | 75.1 % | 54.6 % | 93.0 % | 75.0 % |
| GPT‑5.4 mini (xhigh) | 54.4 % | 60.0 % | 42.9 % | 88.0 % | 72.1 % |
| GPT‑5.4 nano (xhigh) | 52.4 % | 46.3 % | 35.5 % | 82.8 % | 39.0 % |
| GPT‑5 mini (high¹) | 45.7 % | 38.2 % | 26.9 % | 81.6 % | 42.0 % |
¹ 对 GPT‑5 mini 可用的最高
reasoning_effort为 high。
2️⃣ 其他基准
| 基准 | GPT‑5.4 (xhigh) | GPT‑5.4 mini (xhigh) | GPT‑5.4 nano (xhigh) | GPT‑5 mini (high¹) |
|---|---|---|---|---|
| MCP Atlas | 67.2 % | 57.7 % | 56.1 % | 47.6 % |
| τ2‑bench (telecom) | 98.9 % | 93.4 % | 92.5 % | 74.1 % |
| GPQA Diamond(重新列出) | 93.0 % | 88.0 % | 82.8 % | 81.6 % |
| HLE(使用工具) | 52.1 % | 41.5 % | 37.7 % | 31.6 % |
| HLE(不使用工具) | 39.8 % | 28.2 % | 24.3 % | 18.3 % |
| OSWorld‑Verified(重新列出) | 75.0 % | 72.1 % | 39.0 % | 42.0 % |
| MMMU‑Pro(使用 Python) | 81.5 % | 78.0 % | 69.5 % | 74.1 % |
| MMMU‑Pro | 81.2 % | 76.6 % | 66.1 % | 67.5 % |
| OmniDocBench 1.5(无工具)²(越低越好) | 0.109 | 0.126 | 0.241 | 0.179 |
| OpenAI MRCR v2 8‑needle 64K‑128K | 86.0 % | 47.7 % | 44.2 % | 35.1 % |
| OpenAI MRCR v2 8‑needle 128K‑256K | 79.3 % | 33.6 % | 33.1 % | 19.4 % |
| Graphwalks BFS 0K‑128K | 93.1 % | 76.3 % | 73.4 % | 73.4 % |
| Graphwalks parents 0‑128K(准确率) | 89.8 % | 71.5 % | 50.8 % | 64.3 % |
² 总体编辑距离。OmniDocBench 在
reasoning_effort设置为 none 的情况下运行,以体现纯“无推理”基线。
📚 模型在您的技术栈中的定位
API
- 输入: 文本 & 图像
- 能力: 工具使用、函数调用、网络搜索、文件搜索、计算机使用、技能
- 上下文窗口: 400 k 令牌
- 定价:
- GPT‑5.4 mini – $0.75 / 1 M 输入令牌,$4.50 / 1 M 输出令牌
- GPT‑5.4 nano – $0.20 / 1 M 输入令牌,$1.25 / 1 M 输出令牌
Codex
- 可在 Codex 应用、CLI、IDE 扩展和网页上使用。
- 仅使用 30 % 的 GPT‑5.4 配额,为较简单的编码任务提供约三分之一的成本。
- 可将低推理工作委派给 GPT‑5.4 mini 子代理。
ChatGPT
- 免费 & Go 用户:“思考”功能(通过 + 菜单)使用 GPT‑5.4 mini。
- 其他所有用户:GPT‑5.4 mini 作为 GPT‑5.4 Thinking 的速率限制回退。
🤖 子代理与系统设计
“与其使用单一模型处理所有任务,开发者可以构建系统,让更大的模型决定 做什么,而更小的模型在规模上快速执行。”
- 示例: 在 Codex 中,GPT‑5.4 负责规划和最终判断,而 GPT‑5.4 mini 子代理执行并行任务,如搜索代码库、审查大型文件或处理支持文档。
- 在 Codex 文档(在新窗口打开) 中了解更多关于子代理的信息。
📈 延迟与成本免责声明
延迟估计来源于包含工具调用时长、采样令牌和输入令牌的生产行为仿真。实际延迟可能因许多仿真未捕获的因素而有显著差异。成本基于当前 API 定价,未来可能会变动。推理工作量从 low 到 xhigh 进行了覆盖。
GPT‑5.4 mini 和 GPT‑5.4 nano 已上线。请选择最能在速度、成本和能力之间取得平衡的模型,以满足您的工作负载!
低成本、低延迟的性能。