Qwen3.6-Plus 基准测试:它正在尝试完成任务,而不仅仅是赢得聊天分数

发布: (2026年4月24日 GMT+8 09:46)
5 分钟阅读
原文: Dev.to

Source: Dev.to

概览

我在查看 Qwen 3.6‑Plus 基准表时,首先想到的是常见的问题:它比 Qwen 3.5 更好吗,提升了多少?
在阅读了官方发布页面以及阿里巴巴 2026 年 4 月 2 日的公告后,出现了更有意思的答案。Qwen 此次发布并非仅仅为了展示一次温和的聊天改进;它在展示模型一旦真正的任务启动后仍能持续前进。这种转变比页面上的任何单一分数都更为重要。

基准测试分数

基准测试得分
Official table (overall)78.8
SWE‑Bench Pro56.6
SWE‑Bench Multilingual73.8
Terminal‑Bench 2.061.6
TAU3‑Bench70.7
DeepPlanning41.5
MCPMark48.2
HLE w/ tool50.6
QwenWebBench1501.7
RealWorldQA85.4
OmniDocBench 1.591.2
CC‑OCR83.4
AI2D_TEST94.4
CountBench97.6
MMMU86.0
SimpleVQA67.3
NL2Repo37.9
HLE (overall)28.8
MCP‑Atlas74.1

这些数值比过去的单函数编码测试更贴近真实的代码仓库工作。模型必须读取文件、理解问题、决定要编辑的内容,并在评估中存活下来。

代理设置

Qwen 公开了评估框架的部分信息:SWE‑Bench 系列使用了内部代理框架,配合 Bash 和文件编辑工具,并且拥有 200 K 上下文窗口。这并不削弱结果;相反它使结果更易于解释。报告的分数反映了在声明的设置下 模型 + 代理循环 的表现,这与开发者实际使用这些系统的方式相吻合。

分数揭示的内容

  • 工作流参与度 – 基准测试侧重于持续工作(终端交互、多步骤规划、工具使用),而不是提供单一巧妙答案。
  • 多模态能力 – 在 RealWorldQA、OmniDocBench、CC‑OCR 和 AI2D_TEST 上的得分表明模型能够读取凌乱的文档、解析 UI 元素、处理 OCR,并理解图表,将感知反馈回任务循环。
  • 选择性优势 – Qwen 3.6‑Plus 并未在所有基准测试中占据优势(例如 MMMU 86.0、SimpleVQA 67.3、NL2Repo 37.9)。其表现曲线可信:在团队优化的领域——代理式编码、工具使用、长时程任务完成以及多模态工作流——表现出显著提升。

用例指南

  • 仓库级别的编码代理 – 在代码库中自动化修复错误、重构或添加功能。
  • 浏览器或终端自动化 – 导航网页界面、执行命令行工作流,并根据反馈进行恢复。
  • 长文档流水线 – 处理大量文档,提取结构化信息,并将其输入下游任务。
  • 截图转代码流程 – 将 UI 原型或图表转换为可执行代码。
  • 需要持久上下文的系统 – 需要在长时间工作会话中跨多步骤保留推理的场景。

如果你的工作负载主要是短对话、轻量摘要或随意写作,收益可能不太明显,尽管模型整体仍有提升。

实践验证

要在自己的工作负载上测试此说法,请在浏览器中使用 Qwen 3.6‑Plus 进行真实场景的尝试:错误报告、代码仓库、截图、一堆文档或多步骤任务。这正是该发布旨在取胜的地方。

参考文献

  • Qwen 3.6‑Plus 发布页面 – 阿里云,2026年4月2日新闻稿。
  • 阿里云社区,“Qwen 3.6‑Plus:迈向真实世界的代理”。
  • 来源文章:
  • 模型页面:
    *
    *
0 浏览
Back to Blog

相关文章

阅读更多 »