Qwen3.5 122B 与 35B 模型在本地电脑上提供 Sonnet 4.5 性能

发布: 3天前 (2026年3月1日 GMT+8 04:20)

8 分钟阅读

原文: Hacker News

Source: Hacker News

Source: …

阿里巴巴 Qwen 3.5 中型模型系列

就在一天前，Qwen AI 团队发布了 Qwen 3.5 中型模型系列，这是一组包含四个新大型语言模型（LLM）的系列，支持代理工具调用。其中三款模型在 Apache 2.0 许可证下可用于商业用途：

Qwen 3.5‑35B‑A3B
Qwen 3.5‑122B‑A10B
Qwen 3.5‑27B

这些模型可从 Hugging Face 和 ModelScope 下载。

第四款模型 Qwen 3.5‑Flash 为专有模型，仅可通过 阿里云模型工作室 API 访问，但相较于西方同类产品，它在成本上具有显著优势（见下表定价）。

为什么开源模型重要

基准性能 – 在第三方测试中，开源的 Qwen 3.5 系列模型的表现与同等规模的 OpenAI 和 Anthropic 专有模型相当或更佳，超越了 OpenAI 的 GPT‑5‑mini 和 Anthropic 仅在五个月前发布的 Claude Sonnet 4.5。
量化友好 – 团队报告称，即使在量化（即降低权重和 KV‑cache 值的数值精度）后，模型仍保持高度准确。
桌面级前沿上下文窗口 – 旗舰模型 Qwen 3.5‑35B‑A3B 在配备 32 GB 显存的消费级 GPU 上即可实现 超过 1 百万 token 的上下文长度，所需计算远低于许多竞争方案。
近乎无损的 4 位量化 – 使得在普通硬件上处理海量数据集成为可能。

技术：Delta Force

Qwen 3.5的性能源于一种混合架构，将 Gated Delta Networks 与 稀疏Mixture‑of‑Experts (MoE) 系统相结合。以下是 Qwen 3.5‑35B‑A3B 规格的亮点：

特性	细节
参数效率	总计 35 B 参数，但每个 token 只激活 3 B 参数。
专家多样性	MoE 层包含 256 位专家；每个 token 路由 8 位专家，加上 1 位共享专家，从而降低推理延迟。
近无损量化	使用 4‑bit 权重保持高精度，缩减本地部署的内存占用。
基础模型发布	阿里巴巴开源了 Qwen 3.5‑35B‑A3B‑Base 模型以及指令微调的变体。

产品：先“思考”的智能

Qwen 3.5 引入了原生的 “思考模式”。 在给出最终答案之前，模型会在 “ 标签中生成内部推理链，以便处理复杂逻辑。

模型	目标硬件	上下文长度	主要特性
Qwen 3.5‑27B	高效能 GPU	> 800 K tokens	为低资源环境优化。
Qwen 3.5‑Flash	托管于阿里云	1 M + tokens（默认）	生产级，包含官方工具。
Qwen 3.5‑122B‑A10B	服务器级 GPU（80 GB 显存）	1 M + tokens	弥合与全球最大前沿模型之间的差距。

基准测试结果显示 35B‑A3B 模型在知识（MMMLU）和视觉推理（MMMU‑Pro）方面超越了更大的前代模型（例如 Qwen‑3‑235B）以及专有的 GPT‑5‑mini 和 Claude Sonnet 4.5。

Alibaba Qwen 3.5 中型模型基准对比图。来源：Alibaba

定价与 API 集成

对于不想自行托管模型权重的用户，Alibaba Cloud Model Studio 提供 Qwen 3.5‑Flash 的 API，费用如下：

操作	价格（每 1 M 令牌）
Input	$0.10
Output	$0.40
Cache Creation	$0.125
Cache Read	$0.01
Tool Calling – Web Search	$10 per 1 000 calls
Tool Calling – Code Interpreter	Free (limited‑time offer)

与其他主流 LLM API 的费用对比

模型	输入	输出	总费用*	来源
Qwen 3 Turbo	$0.05	$0.20	$0.25	Alibaba Cloud
Qwen 3.5‑Flash	$0.10	$0.40	$0.50	Alibaba Cloud
DeepSeek‑Chat (v3.2‑Exp)	$0.28	$0.42	$0.70	DeepSeek
DeepSeek‑Reasoner (v3.2‑Exp)	$0.28	$0.42	$0.70	DeepSeek
Grok 4.1 Fast (reasoning)	$0.20	$0.50	$0.70	xAI
Grok 4.1 Fast (non‑reasoning)	$0.20	$0.50	$0.70	xAI

*总费用 = 输入 + 输出（每 1 M 令牌）。

Qwen 3.5‑Flash 因此是全球最具性价比的 LLM API 之一。

所有信息截至 2026 年 2 月 28 日。

模型定价概览

模型	输入 $ / 1K 标记	输出 $ / 1K 标记	总计 $ / 1K 标记*	提供商
MiniMax M2.5	0.15	1.20	1.35	MiniMax
MiniMax M2.5‑Lightning	0.30	2.40	2.70	MiniMax
Gemini 3 Flash Preview	0.50	3.00	3.50	Google
Kimi‑k2.5	0.60	3.00	3.60	Moonshot
GLM‑5	1.00	3.20	4.20	Z.ai
ERNIE 5.0	0.85	3.40	4.25	Baidu
Claude Haiku 4.5	1.00	5.00	6.00	Anthropic
Qwen3‑Max (2026‑01‑23)	1.20	6.00	7.20	Alibaba Cloud
Gemini 3 Pro (≤200K)	2.00	12.00	14.00	Google
GPT‑5.2	1.75	14.00	15.75	OpenAI
Claude Sonnet 4.5	3.00	15.00	18.00	Anthropic
Gemini 3 Pro (>200K)	4.00	18.00	22.00	Google
Claude Opus 4.6	5.00	25.00	30.00	Anthropic
GPT‑5.2 Pro	21.00	168.00	189.00	OpenAI

*总计 = 输入 + 输出每 1 K 标记的费用（四舍五入至两位小数）。

对企业技术领袖和决策者的意义

随着 Qwen 3.5 中等模型 的发布，快速迭代和微调——曾经是资金充足实验室的专属领域——现在对许多非技术公司在本地进行开发也变得可行。这实际上将复杂的 AI 与巨额资本支出解耦。

在整个组织中，这种架构改变了数据的处理和安全方式。能够本地吞吐海量文档库或小时级视频，使得在不承担第三方 API 隐私风险的情况下进行深入的机构分析成为可能。

通过在私有防火墙内运行这些专用的 Mixture‑of‑Experts 模型，组织可以保持对数据的主权控制，同时利用原生的“思考”模式和官方的工具调用能力，构建更可靠的自主代理。

Hugging Face 的早期采用者特别称赞该模型在代理场景中能够 “缩小差距”，此前只有规模最大的闭源模型才能竞争。

这种向 架构效率胜过原始规模 的转变，确保 AI 集成保持成本意识、安全可靠，并且足够灵活以跟上不断变化的运营需求。

Qwen3.5 122B 与 35B 模型在本地电脑上提供 Sonnet 4.5 性能

阿里巴巴 Qwen 3.5 中型模型系列

为什么开源模型重要

技术：Delta Force

产品：先“思考”的智能

定价与 API 集成

与其他主流 LLM API 的费用对比

模型定价概览

对企业技术领袖和决策者的意义

相关文章

LLM 幻觉指数 2026：为什么 Claude 4.6 Sonnet 在 BullshitBench v2 中占主导，而推理模型却失败

GPT-5.3 即时系统卡

Claude 3.5 Haiku vs Sonnet vs Opus：到底该用哪个？

克劳德代码的秘密生活：开端

阿里巴巴 Qwen 3.5 中型模型系列

为什么开源模型重要

技术：Delta Force

产品：先“思考”的智能

定价与 API 集成

与其他主流 LLM API 的费用对比

模型定价概览

对企业技术领袖和决策者的意义

相关文章

LLM 幻觉指数 2026：为什么 Claude 4.6 Sonnet 在 BullshitBench v2 中占主导，而推理模型却失败

GPT-5.3 即时系统卡

Claude 3.5 Haiku vs Sonnet vs Opus：到底该用哪个？

克劳德代码的秘密生活：开端

阿里巴巴 Qwen 3.5 中型模型系列