谷歌推出‘Gemini 3.1 Pro’…以 Opus 4.6 半价夺回 AI 头号位置
发布: (2026年2月20日 GMT+8 09:25)
3 分钟阅读
原文: Platum
Source: Platum

Gemini 3.1 Pro 发布与评估
智能指数结果
- 在全部10项评估指标中有6项排名第一
- 主要第一名项目:
- Terminal‑Bench Hard(代理式编码)
- AA‑Omniscience(知识·幻觉降低)
- Humanity’s Last Exam(推理·知识)
- GPQA‑Diamond(科学推理)
- SciCode(编码)
- CritPt(研究级物理推理)
尤其在 CritPt 中,以18% 的准确率解决了未公开的研究级物理问题,领先第二名模型超过5个百分点。
幻觉降低与多模态性能
- 相较于前作 Gemini 3 Pro,幻觉错误率降低了38个百分点
- 在多模态理解·推理基准 MMMU‑Pro 中
- Gemini 3.1 Pro = 第一名
- Gemini 3 Pro = 第二名
- Gemini 3 Flash = 第三名
- 在 ARC‑AGI‑2 基准中取得77.1%的成绩,远超 Gemini 3 Pro(31.1%)和 Gemini 3 Deep Think(45.1%)
实际工作代理评估
- 在 GDPval‑AA 中相较前作ELO分数提升了100分以上,但仍低于 Claude Sonnet 4.6、Opus 4.6、GPT‑5.2、GLM‑5,这表明在真实世界的代理任务中仍存在差距。
成本效益
- 智能指数整体运行成本:$892(≈ 1,300,000韩元)→ 低于 Opus 4.6·GPT‑5.2 等竞争前沿模型的 一半以下
- API 价格
- 输入 token 每百万:2,900韩元($2)
- 输出 token 每百万:17,400韩元($12)
- 搜索 grounding:每月前5,000次免费,超出后每千次 20,000韩元($14)
- 相较于开源模型 GLM‑5(547美元),成本约为其 两倍,虽在闭源前沿模型中具成本优势,但与开源模型的差距仍然存在。
合作伙伴及企业反馈
- JetBrains AI 负责人 Vladislav Tankov:质量提升15%,更快更高效且输出 token 数量减少
- Databricks:在基于表格·非结构化数据的推理基准 OfficeQA 中取得最高水平的结果
发布与生态系统支持
- 消费者:可通过 Gemini 应用、Notebook LM 使用(AI Pro·Ultra 订阅者享受更高使用额度)
- 开发者:可通过 Gemini API(AI Studio、Gemini CLI、Android Studio)以及代理开发平台 Google Antigravity 获得预览访问
- 企业:可使用 Vertex AI 与 Gemini Enterprise
- 微软生态系统:在 GitHub Copilot、Visual Studio、VS Code 中也可使用
后续计划与展望
- 目前处于 预览阶段,正式发布(GA)将在进一步验证后尽快进行
- 在 AI 模型王座每隔数月更替的背景下,业界正关注 Gemini 3.1 Pro 在正式发布后是否能保持排名。