Qwen3.6-Plus 基准测试:它正在尝试完成任务,而不仅仅是赢得聊天分数
Source: Dev.to
概览
我在查看 Qwen 3.6‑Plus 基准表时,首先想到的是常见的问题:它比 Qwen 3.5 更好吗,提升了多少?
在阅读了官方发布页面以及阿里巴巴 2026 年 4 月 2 日的公告后,出现了更有意思的答案。Qwen 此次发布并非仅仅为了展示一次温和的聊天改进;它在展示模型一旦真正的任务启动后仍能持续前进。这种转变比页面上的任何单一分数都更为重要。
基准测试分数
| 基准测试 | 得分 |
|---|---|
| Official table (overall) | 78.8 |
| SWE‑Bench Pro | 56.6 |
| SWE‑Bench Multilingual | 73.8 |
| Terminal‑Bench 2.0 | 61.6 |
| TAU3‑Bench | 70.7 |
| DeepPlanning | 41.5 |
| MCPMark | 48.2 |
| HLE w/ tool | 50.6 |
| QwenWebBench | 1501.7 |
| RealWorldQA | 85.4 |
| OmniDocBench 1.5 | 91.2 |
| CC‑OCR | 83.4 |
| AI2D_TEST | 94.4 |
| CountBench | 97.6 |
| MMMU | 86.0 |
| SimpleVQA | 67.3 |
| NL2Repo | 37.9 |
| HLE (overall) | 28.8 |
| MCP‑Atlas | 74.1 |
这些数值比过去的单函数编码测试更贴近真实的代码仓库工作。模型必须读取文件、理解问题、决定要编辑的内容,并在评估中存活下来。
代理设置
Qwen 公开了评估框架的部分信息:SWE‑Bench 系列使用了内部代理框架,配合 Bash 和文件编辑工具,并且拥有 200 K 上下文窗口。这并不削弱结果;相反它使结果更易于解释。报告的分数反映了在声明的设置下 模型 + 代理循环 的表现,这与开发者实际使用这些系统的方式相吻合。
分数揭示的内容
- 工作流参与度 – 基准测试侧重于持续工作(终端交互、多步骤规划、工具使用),而不是提供单一巧妙答案。
- 多模态能力 – 在 RealWorldQA、OmniDocBench、CC‑OCR 和 AI2D_TEST 上的得分表明模型能够读取凌乱的文档、解析 UI 元素、处理 OCR,并理解图表,将感知反馈回任务循环。
- 选择性优势 – Qwen 3.6‑Plus 并未在所有基准测试中占据优势(例如 MMMU 86.0、SimpleVQA 67.3、NL2Repo 37.9)。其表现曲线可信:在团队优化的领域——代理式编码、工具使用、长时程任务完成以及多模态工作流——表现出显著提升。
用例指南
- 仓库级别的编码代理 – 在代码库中自动化修复错误、重构或添加功能。
- 浏览器或终端自动化 – 导航网页界面、执行命令行工作流,并根据反馈进行恢复。
- 长文档流水线 – 处理大量文档,提取结构化信息,并将其输入下游任务。
- 截图转代码流程 – 将 UI 原型或图表转换为可执行代码。
- 需要持久上下文的系统 – 需要在长时间工作会话中跨多步骤保留推理的场景。
如果你的工作负载主要是短对话、轻量摘要或随意写作,收益可能不太明显,尽管模型整体仍有提升。
实践验证
要在自己的工作负载上测试此说法,请在浏览器中使用 Qwen 3.6‑Plus 进行真实场景的尝试:错误报告、代码仓库、截图、一堆文档或多步骤任务。这正是该发布旨在取胜的地方。
参考文献
- Qwen 3.6‑Plus 发布页面 – 阿里云,2026年4月2日新闻稿。
- 阿里云社区,“Qwen 3.6‑Plus:迈向真实世界的代理”。
- 来源文章:
- 模型页面:
*
*