Qwen3.6-Plus 基准测试：它正在尝试完成任务，而不仅仅是赢得聊天分数

发布: 11小时前 (2026年4月24日 GMT+8 09:46)

5 分钟阅读

Source: Dev.to

概览

我在查看 Qwen 3.6‑Plus 基准表时，首先想到的是常见的问题：它比 Qwen 3.5 更好吗，提升了多少？
在阅读了官方发布页面以及阿里巴巴 2026 年 4 月 2 日的公告后，出现了更有意思的答案。Qwen 此次发布并非仅仅为了展示一次温和的聊天改进；它在展示模型一旦真正的任务启动后仍能持续前进。这种转变比页面上的任何单一分数都更为重要。

基准测试分数

基准测试	得分
Official table (overall)	78.8
SWE‑Bench Pro	56.6
SWE‑Bench Multilingual	73.8
Terminal‑Bench 2.0	61.6
TAU3‑Bench	70.7
DeepPlanning	41.5
MCPMark	48.2
HLE w/ tool	50.6
QwenWebBench	1501.7
RealWorldQA	85.4
OmniDocBench 1.5	91.2
CC‑OCR	83.4
AI2D_TEST	94.4
CountBench	97.6
MMMU	86.0
SimpleVQA	67.3
NL2Repo	37.9
HLE (overall)	28.8
MCP‑Atlas	74.1

这些数值比过去的单函数编码测试更贴近真实的代码仓库工作。模型必须读取文件、理解问题、决定要编辑的内容，并在评估中存活下来。

代理设置

Qwen 公开了评估框架的部分信息：SWE‑Bench 系列使用了内部代理框架，配合 Bash 和文件编辑工具，并且拥有 200 K 上下文窗口。这并不削弱结果；相反它使结果更易于解释。报告的分数反映了在声明的设置下 模型 + 代理循环 的表现，这与开发者实际使用这些系统的方式相吻合。

分数揭示的内容

工作流参与度 – 基准测试侧重于持续工作（终端交互、多步骤规划、工具使用），而不是提供单一巧妙答案。
多模态能力 – 在 RealWorldQA、OmniDocBench、CC‑OCR 和 AI2D_TEST 上的得分表明模型能够读取凌乱的文档、解析 UI 元素、处理 OCR，并理解图表，将感知反馈回任务循环。
选择性优势 – Qwen 3.6‑Plus 并未在所有基准测试中占据优势（例如 MMMU 86.0、SimpleVQA 67.3、NL2Repo 37.9）。其表现曲线可信：在团队优化的领域——代理式编码、工具使用、长时程任务完成以及多模态工作流——表现出显著提升。

用例指南

仓库级别的编码代理 – 在代码库中自动化修复错误、重构或添加功能。
浏览器或终端自动化 – 导航网页界面、执行命令行工作流，并根据反馈进行恢复。
长文档流水线 – 处理大量文档，提取结构化信息，并将其输入下游任务。
截图转代码流程 – 将 UI 原型或图表转换为可执行代码。
需要持久上下文的系统 – 需要在长时间工作会话中跨多步骤保留推理的场景。

如果你的工作负载主要是短对话、轻量摘要或随意写作，收益可能不太明显，尽管模型整体仍有提升。

实践验证

要在自己的工作负载上测试此说法，请在浏览器中使用 Qwen 3.6‑Plus 进行真实场景的尝试：错误报告、代码仓库、截图、一堆文档或多步骤任务。这正是该发布旨在取胜的地方。

参考文献

Qwen 3.6‑Plus 发布页面 – 阿里云，2026年4月2日新闻稿。
阿里云社区，“Qwen 3.6‑Plus：迈向真实世界的代理”。
来源文章：
模型页面：
*
*

Qwen3.6-Plus 基准测试：它正在尝试完成任务，而不仅仅是赢得聊天分数

概览

基准测试分数

代理设置

分数揭示的内容

用例指南

实践验证

参考文献

相关文章

我用 Flask 构建了一个私有、本地优先的 AI 助手

超越 Linting：数据驱动的方法，建议更好的代码，而不仅仅是标记坏代码

我如何为 38,000 家法国托儿所构建了一个托儿服务可用性平台

为数据驱动系统设计稳定的集成测试架构 —— QA 转型与集成架构师