Qwen3.5 122B 与 35B 模型在本地电脑上提供 Sonnet 4.5 性能
Source: Hacker News
Source: …
阿里巴巴 Qwen 3.5 中型模型系列
就在一天前,Qwen AI 团队发布了 Qwen 3.5 中型模型系列,这是一组包含四个新大型语言模型(LLM)的系列,支持代理工具调用。其中三款模型在 Apache 2.0 许可证下可用于商业用途:
- Qwen 3.5‑35B‑A3B
- Qwen 3.5‑122B‑A10B
- Qwen 3.5‑27B
这些模型可从 Hugging Face 和 ModelScope 下载。
第四款模型 Qwen 3.5‑Flash 为专有模型,仅可通过 阿里云模型工作室 API 访问,但相较于西方同类产品,它在成本上具有显著优势(见下表定价)。
为什么开源模型重要
- 基准性能 – 在第三方测试中,开源的 Qwen 3.5 系列模型的表现与同等规模的 OpenAI 和 Anthropic 专有模型相当或更佳,超越了 OpenAI 的 GPT‑5‑mini 和 Anthropic 仅在五个月前发布的 Claude Sonnet 4.5。
- 量化友好 – 团队报告称,即使在量化(即降低权重和 KV‑cache 值的数值精度)后,模型仍保持高度准确。
- 桌面级前沿上下文窗口 – 旗舰模型 Qwen 3.5‑35B‑A3B 在配备 32 GB 显存的消费级 GPU 上即可实现 超过 1 百万 token 的上下文长度,所需计算远低于许多竞争方案。
- 近乎无损的 4 位量化 – 使得在普通硬件上处理海量数据集成为可能。
技术:Delta Force
Qwen 3.5的性能源于一种混合架构,将 Gated Delta Networks 与 稀疏Mixture‑of‑Experts (MoE) 系统相结合。以下是 Qwen 3.5‑35B‑A3B 规格的亮点:
| 特性 | 细节 |
|---|---|
| 参数效率 | 总计 35 B 参数,但每个 token 只激活 3 B 参数。 |
| 专家多样性 | MoE 层包含 256 位专家;每个 token 路由 8 位专家,加上 1 位共享专家,从而降低推理延迟。 |
| 近无损量化 | 使用 4‑bit 权重保持高精度,缩减本地部署的内存占用。 |
| 基础模型发布 | 阿里巴巴开源了 Qwen 3.5‑35B‑A3B‑Base 模型以及指令微调的变体。 |
产品:先“思考”的智能
Qwen 3.5 引入了原生的 “思考模式”。 在给出最终答案之前,模型会在 “ 标签中生成内部推理链,以便处理复杂逻辑。
| 模型 | 目标硬件 | 上下文长度 | 主要特性 |
|---|---|---|---|
| Qwen 3.5‑27B | 高效能 GPU | > 800 K tokens | 为低资源环境优化。 |
| Qwen 3.5‑Flash | 托管于阿里云 | 1 M + tokens(默认) | 生产级,包含官方工具。 |
| Qwen 3.5‑122B‑A10B | 服务器级 GPU(80 GB 显存) | 1 M + tokens | 弥合与全球最大前沿模型之间的差距。 |
基准测试结果显示 35B‑A3B 模型在知识(MMMLU)和视觉推理(MMMU‑Pro)方面超越了更大的前代模型(例如 Qwen‑3‑235B)以及专有的 GPT‑5‑mini 和 Claude Sonnet 4.5。

定价与 API 集成
对于不想自行托管模型权重的用户,Alibaba Cloud Model Studio 提供 Qwen 3.5‑Flash 的 API,费用如下:
| 操作 | 价格(每 1 M 令牌) |
|---|---|
| Input | $0.10 |
| Output | $0.40 |
| Cache Creation | $0.125 |
| Cache Read | $0.01 |
| Tool Calling – Web Search | $10 per 1 000 calls |
| Tool Calling – Code Interpreter | Free (limited‑time offer) |
与其他主流 LLM API 的费用对比
| 模型 | 输入 | 输出 | 总费用* | 来源 |
|---|---|---|---|---|
| Qwen 3 Turbo | $0.05 | $0.20 | $0.25 | Alibaba Cloud |
| Qwen 3.5‑Flash | $0.10 | $0.40 | $0.50 | Alibaba Cloud |
| DeepSeek‑Chat (v3.2‑Exp) | $0.28 | $0.42 | $0.70 | DeepSeek |
| DeepSeek‑Reasoner (v3.2‑Exp) | $0.28 | $0.42 | $0.70 | DeepSeek |
| Grok 4.1 Fast (reasoning) | $0.20 | $0.50 | $0.70 | xAI |
| Grok 4.1 Fast (non‑reasoning) | $0.20 | $0.50 | $0.70 | xAI |
*总费用 = 输入 + 输出(每 1 M 令牌)。
Qwen 3.5‑Flash 因此是全球最具性价比的 LLM API 之一。
所有信息截至 2026 年 2 月 28 日。
模型定价概览
| 模型 | 输入 $ / 1K 标记 | 输出 $ / 1K 标记 | 总计 $ / 1K 标记* | 提供商 |
|---|---|---|---|---|
| MiniMax M2.5 | 0.15 | 1.20 | 1.35 | MiniMax |
| MiniMax M2.5‑Lightning | 0.30 | 2.40 | 2.70 | MiniMax |
| Gemini 3 Flash Preview | 0.50 | 3.00 | 3.50 | |
| Kimi‑k2.5 | 0.60 | 3.00 | 3.60 | Moonshot |
| GLM‑5 | 1.00 | 3.20 | 4.20 | Z.ai |
| ERNIE 5.0 | 0.85 | 3.40 | 4.25 | Baidu |
| Claude Haiku 4.5 | 1.00 | 5.00 | 6.00 | Anthropic |
| Qwen3‑Max (2026‑01‑23) | 1.20 | 6.00 | 7.20 | Alibaba Cloud |
| Gemini 3 Pro (≤200K) | 2.00 | 12.00 | 14.00 | |
| GPT‑5.2 | 1.75 | 14.00 | 15.75 | OpenAI |
| Claude Sonnet 4.5 | 3.00 | 15.00 | 18.00 | Anthropic |
| Gemini 3 Pro (>200K) | 4.00 | 18.00 | 22.00 | |
| Claude Opus 4.6 | 5.00 | 25.00 | 30.00 | Anthropic |
| GPT‑5.2 Pro | 21.00 | 168.00 | 189.00 | OpenAI |
*总计 = 输入 + 输出 每 1 K 标记的费用(四舍五入至两位小数)。
对企业技术领袖和决策者的意义
随着 Qwen 3.5 中等模型 的发布,快速迭代和微调——曾经是资金充足实验室的专属领域——现在对许多非技术公司在本地进行开发也变得可行。这实际上将复杂的 AI 与巨额资本支出解耦。
在整个组织中,这种架构改变了数据的处理和安全方式。能够 本地 吞吐海量文档库或小时级视频,使得在不承担第三方 API 隐私风险的情况下进行深入的机构分析成为可能。
通过在私有防火墙内运行这些专用的 Mixture‑of‑Experts 模型,组织可以保持对数据的主权控制,同时利用原生的“思考”模式和官方的工具调用能力,构建更可靠的自主代理。
Hugging Face 的早期采用者特别称赞该模型在代理场景中能够 “缩小差距”,此前只有规模最大的闭源模型才能竞争。
这种向 架构效率胜过原始规模 的转变,确保 AI 集成保持成本意识、安全可靠,并且足够灵活以跟上不断变化的运营需求。