谷歌推出‘Gemini 3.1 Pro’…以 Opus 4.6 半价夺回 AI 头号位置

发布: 3天前 (2026年2月20日 GMT+8 09:25)

3 分钟阅读

原文: Platum

Source: Platum

Gemini 3.1 Pro 发布与评估

智能指数结果

在全部10项评估指标中有6项排名第一
主要第一名项目：
- Terminal‑Bench Hard（代理式编码）
- AA‑Omniscience（知识·幻觉降低）
- Humanity’s Last Exam（推理·知识）
- GPQA‑Diamond（科学推理）
- SciCode（编码）
- CritPt（研究级物理推理）

尤其在 CritPt 中，以18% 的准确率解决了未公开的研究级物理问题，领先第二名模型超过5个百分点。

幻觉降低与多模态性能

相较于前作 Gemini 3 Pro，幻觉错误率降低了38个百分点
在多模态理解·推理基准 MMMU‑Pro 中
- Gemini 3.1 Pro = 第一名
- Gemini 3 Pro = 第二名
- Gemini 3 Flash = 第三名
在 ARC‑AGI‑2 基准中取得77.1%的成绩，远超 Gemini 3 Pro（31.1%）和 Gemini 3 Deep Think（45.1%）

实际工作代理评估

在 GDPval‑AA 中相较前作ELO分数提升了100分以上，但仍低于 Claude Sonnet 4.6、Opus 4.6、GPT‑5.2、GLM‑5，这表明在真实世界的代理任务中仍存在差距。

成本效益

智能指数整体运行成本：$892（≈ 1,300,000韩元）→ 低于 Opus 4.6·GPT‑5.2 等竞争前沿模型的 一半以下
API 价格
- 输入 token 每百万：2,900韩元（$2）
- 输出 token 每百万：17,400韩元（$12）
搜索 grounding：每月前5,000次免费，超出后每千次 20,000韩元（$14）
相较于开源模型 GLM‑5（547美元），成本约为其两倍，虽在闭源前沿模型中具成本优势，但与开源模型的差距仍然存在。

合作伙伴及企业反馈

JetBrains AI 负责人 Vladislav Tankov：质量提升15%，更快更高效且输出 token 数量减少
Databricks：在基于表格·非结构化数据的推理基准 OfficeQA 中取得最高水平的结果

发布与生态系统支持

消费者：可通过 Gemini 应用、Notebook LM 使用（AI Pro·Ultra 订阅者享受更高使用额度）
开发者：可通过 Gemini API（AI Studio、Gemini CLI、Android Studio）以及代理开发平台 Google Antigravity 获得预览访问
企业：可使用 Vertex AI 与 Gemini Enterprise
微软生态系统：在 GitHub Copilot、Visual Studio、VS Code 中也可使用

后续计划与展望

目前处于 预览阶段，正式发布（GA）将在进一步验证后尽快进行
在 AI 模型王座每隔数月更替的背景下，业界正关注 Gemini 3.1 Pro 在正式发布后是否能保持排名。

相关文章

阅读更多 »

Google发布Gemini 3.1 Pro

发布概述谷歌于2月19日当地时间推出了前沿 AI 模型的最新版本——Gemini 3.1 Pro。

Gemini 3.1 Pro 完整指南 2026：谷歌迄今最智能的 AI 模型

Gemini 3.1 Pro 完整指南 2026：Google 有史以来最智能的 AI 模型 🎯 关键要点 TL;DR - 推理性能比前代提升 2 倍 – 在 ARC‑AGI‑2 上达到 77.1% …

Google 的新 Gemini Pro 模型再次创下基准纪录分数

!Google Gemini https://techcrunch.com/wp-content/uploads/2026/01/google-gemini-jagmeet-singh-techcrunch.jpg?w=1024 图片来源：Jagmeet Singh / TechCrunch

Google 新 Gemini Pro 模型再次创下基准分数纪录

!Google Gemini 图片来源：Jagmeet Singh / TechCrunch 在 B…