谷歌推出‘Gemini 3.1 Pro’…以 Opus 4.6 半价夺回 AI 头号位置

发布: (2026年2月20日 GMT+8 09:25)
3 分钟阅读
原文: Platum

Source: Platum

Gemini 3.1 Pro 发布与评估

智能指数结果

  • 在全部10项评估指标中有6项排名第一
  • 主要第一名项目:
    • Terminal‑Bench Hard(代理式编码)
    • AA‑Omniscience(知识·幻觉降低)
    • Humanity’s Last Exam(推理·知识)
    • GPQA‑Diamond(科学推理)
    • SciCode(编码)
    • CritPt(研究级物理推理)

尤其在 CritPt 中,以18% 的准确率解决了未公开的研究级物理问题,领先第二名模型超过5个百分点。

幻觉降低与多模态性能

  • 相较于前作 Gemini 3 Pro,幻觉错误率降低了38个百分点
  • 在多模态理解·推理基准 MMMU‑Pro
    • Gemini 3.1 Pro = 第一名
    • Gemini 3 Pro = 第二名
    • Gemini 3 Flash = 第三名
  • ARC‑AGI‑2 基准中取得77.1%的成绩,远超 Gemini 3 Pro(31.1%)和 Gemini 3 Deep Think(45.1%)

实际工作代理评估

  • GDPval‑AA 中相较前作ELO分数提升了100分以上,但仍低于 Claude Sonnet 4.6Opus 4.6GPT‑5.2GLM‑5,这表明在真实世界的代理任务中仍存在差距。

成本效益

  • 智能指数整体运行成本:$892(≈ 1,300,000韩元)→ 低于 Opus 4.6·GPT‑5.2 等竞争前沿模型的 一半以下
  • API 价格
    • 输入 token 每百万:2,900韩元($2)
    • 输出 token 每百万:17,400韩元($12)
  • 搜索 grounding:每月前5,000次免费,超出后每千次 20,000韩元($14)
  • 相较于开源模型 GLM‑5(547美元),成本约为其 两倍,虽在闭源前沿模型中具成本优势,但与开源模型的差距仍然存在。

合作伙伴及企业反馈

  • JetBrains AI 负责人 Vladislav Tankov:质量提升15%,更快更高效且输出 token 数量减少
  • Databricks:在基于表格·非结构化数据的推理基准 OfficeQA 中取得最高水平的结果

发布与生态系统支持

  • 消费者:可通过 Gemini 应用、Notebook LM 使用(AI Pro·Ultra 订阅者享受更高使用额度)
  • 开发者:可通过 Gemini API(AI Studio、Gemini CLI、Android Studio)以及代理开发平台 Google Antigravity 获得预览访问
  • 企业:可使用 Vertex AI 与 Gemini Enterprise
  • 微软生态系统:在 GitHub Copilot、Visual Studio、VS Code 中也可使用

后续计划与展望

  • 目前处于 预览阶段,正式发布(GA)将在进一步验证后尽快进行
  • 在 AI 模型王座每隔数月更替的背景下,业界正关注 Gemini 3.1 Pro 在正式发布后是否能保持排名。
0 浏览
Back to Blog

相关文章

阅读更多 »