介绍 GPT-5.4 mini 和 nano

发布: 3天前 (2026年3月17日 GMT+8 18:00)

6 分钟阅读

Source: OpenAI Blog

📦 模型亮点

模型	大小	相较于 GPT‑5 mini 的速度	关键优势
GPT‑5.4 mini	“mini”（xhigh）	> 2× 更快相比 GPT‑5 mini	编码、推理、多模态理解、工具使用；在众多基准测试上接近 GPT‑5.4 的性能
GPT‑5.4 nano	“nano”（xhigh）	最小且最经济的 GPT‑5.4 版本	分类、数据提取、排序、简单编码子代理

两款模型均面向对延迟敏感的产品体验而设计：编码助手、能够快速完成支撑任务的子代理、能够解析截图的计算机使用系统，以及实时多模态应用。

注意 – 在许多情况下，最佳模型并非最大者；而是能够快速响应、可靠使用工具，并且仍能处理复杂专业任务的模型。

GPT‑5.4 mini – 适用于：
- 快速迭代的编码工作流（针对性编辑、代码库导航、前端生成、调试循环）
- 结合不同规模模型的系统（例如，大型 GPT‑5.4 负责规划，mini 处理狭窄子任务）
  → 在 API、Codex 和 ChatGPT 中可用
GPT‑5.4 nano – 适用于：
- 分类、数据抽取、排序
- 处理支持任务的简单编码子代理
  → 仅通过 API 提供

Source: …

模型	SWE‑Bench Pro（公开）	Terminal‑Bench 2.0	Toolathon	GPQA Diamond	OSWorld‑Verified
GPT‑5.4 (xhigh)	57.7 %	75.1 %	54.6 %	93.0 %	75.0 %
GPT‑5.4 mini (xhigh)	54.4 %	60.0 %	42.9 %	88.0 %	72.1 %
GPT‑5.4 nano (xhigh)	52.4 %	46.3 %	35.5 %	82.8 %	39.0 %
GPT‑5 mini (high¹)	45.7 %	38.2 %	26.9 %	81.6 %	42.0 %

¹ 对 GPT‑5 mini 可用的最高 reasoning_effort 为 high。

基准	GPT‑5.4 (xhigh)	GPT‑5.4 mini (xhigh)	GPT‑5.4 nano (xhigh)	GPT‑5 mini (high¹)
MCP Atlas	67.2 %	57.7 %	56.1 %	47.6 %
τ2‑bench (telecom)	98.9 %	93.4 %	92.5 %	74.1 %
GPQA Diamond（重新列出）	93.0 %	88.0 %	82.8 %	81.6 %
HLE（使用工具）	52.1 %	41.5 %	37.7 %	31.6 %
HLE（不使用工具）	39.8 %	28.2 %	24.3 %	18.3 %
OSWorld‑Verified（重新列出）	75.0 %	72.1 %	39.0 %	42.0 %
MMMU‑Pro（使用 Python）	81.5 %	78.0 %	69.5 %	74.1 %
MMMU‑Pro	81.2 %	76.6 %	66.1 %	67.5 %
OmniDocBench 1.5（无工具）²（越低越好）	0.109	0.126	0.241	0.179
OpenAI MRCR v2 8‑needle 64K‑128K	86.0 %	47.7 %	44.2 %	35.1 %
OpenAI MRCR v2 8‑needle 128K‑256K	79.3 %	33.6 %	33.1 %	19.4 %
Graphwalks BFS 0K‑128K	93.1 %	76.3 %	73.4 %	73.4 %
Graphwalks parents 0‑128K（准确率）	89.8 %	71.5 %	50.8 %	64.3 %

² 总体编辑距离。OmniDocBench 在 reasoning_effort 设置为 none 的情况下运行，以体现纯“无推理”基线。

输入: 文本 & 图像
能力: 工具使用、函数调用、网络搜索、文件搜索、计算机使用、技能
上下文窗口: 400 k 令牌
定价:
- GPT‑5.4 mini – $0.75 / 1 M 输入令牌，$4.50 / 1 M 输出令牌
- GPT‑5.4 nano – $0.20 / 1 M 输入令牌，$1.25 / 1 M 输出令牌

“与其使用单一模型处理所有任务，开发者可以构建系统，让更大的模型决定 做什么，而更小的模型在规模上快速执行。”

示例： 在 Codex 中，GPT‑5.4 负责规划和最终判断，而 GPT‑5.4 mini 子代理执行并行任务，如搜索代码库、审查大型文件或处理支持文档。
在 Codex 文档（在新窗口打开）中了解更多关于子代理的信息。

延迟估计来源于包含工具调用时长、采样令牌和输入令牌的生产行为仿真。实际延迟可能因许多仿真未捕获的因素而有显著差异。成本基于当前 API 定价，未来可能会变动。推理工作量从 low 到 xhigh 进行了覆盖。

GPT‑5.4 mini 和 GPT‑5.4 nano 已上线。请选择最能在速度、成本和能力之间取得平衡的模型，以满足您的工作负载！

低成本、低延迟的性能。