Qwen3.5 122B 与 35B 模型在本地电脑上提供 Sonnet 4.5 性能

发布: (2026年3月1日 GMT+8 04:20)
8 分钟阅读

Source: Hacker News

Source:

阿里巴巴 Qwen 3.5 中型模型系列

就在一天前,Qwen AI 团队发布了 Qwen 3.5 中型模型系列,这是一组包含四个新大型语言模型(LLM)的系列,支持代理工具调用。其中三款模型在 Apache 2.0 许可证下可用于商业用途:

  • Qwen 3.5‑35B‑A3B
  • Qwen 3.5‑122B‑A10B
  • Qwen 3.5‑27B

这些模型可从 Hugging FaceModelScope 下载。

第四款模型 Qwen 3.5‑Flash 为专有模型,仅可通过 阿里云模型工作室 API 访问,但相较于西方同类产品,它在成本上具有显著优势(见下表定价)。

为什么开源模型重要

  • 基准性能 – 在第三方测试中,开源的 Qwen 3.5 系列模型的表现与同等规模的 OpenAI 和 Anthropic 专有模型相当或更佳,超越了 OpenAI 的 GPT‑5‑mini 和 Anthropic 仅在五个月前发布的 Claude Sonnet 4.5
  • 量化友好 – 团队报告称,即使在量化(即降低权重和 KV‑cache 值的数值精度)后,模型仍保持高度准确。
  • 桌面级前沿上下文窗口 – 旗舰模型 Qwen 3.5‑35B‑A3B 在配备 32 GB 显存的消费级 GPU 上即可实现 超过 1 百万 token 的上下文长度,所需计算远低于许多竞争方案。
  • 近乎无损的 4 位量化 – 使得在普通硬件上处理海量数据集成为可能。

技术:Delta Force

Qwen 3.5的性能源于一种混合架构,将 Gated Delta Networks稀疏Mixture‑of‑Experts (MoE) 系统相结合。以下是 Qwen 3.5‑35B‑A3B 规格的亮点:

特性细节
参数效率总计 35 B 参数,但每个 token 只激活 3 B 参数。
专家多样性MoE 层包含 256 位专家;每个 token 路由 8 位专家,加上 1 位共享专家,从而降低推理延迟。
近无损量化使用 4‑bit 权重保持高精度,缩减本地部署的内存占用。
基础模型发布阿里巴巴开源了 Qwen 3.5‑35B‑A3B‑Base 模型以及指令微调的变体。

产品:先“思考”的智能

Qwen 3.5 引入了原生的 “思考模式”。 在给出最终答案之前,模型会在 “ 标签中生成内部推理链,以便处理复杂逻辑。

模型目标硬件上下文长度主要特性
Qwen 3.5‑27B高效能 GPU> 800 K tokens为低资源环境优化。
Qwen 3.5‑Flash托管于阿里云1 M + tokens(默认)生产级,包含官方工具。
Qwen 3.5‑122B‑A10B服务器级 GPU(80 GB 显存)1 M + tokens弥合与全球最大前沿模型之间的差距。

基准测试结果显示 35B‑A3B 模型在知识(MMMLU)和视觉推理(MMMU‑Pro)方面超越了更大的前代模型(例如 Qwen‑3‑235B)以及专有的 GPT‑5‑miniClaude Sonnet 4.5

Alibaba Qwen 3.5 中型模型基准对比图。来源:Alibaba

定价与 API 集成

对于不想自行托管模型权重的用户,Alibaba Cloud Model Studio 提供 Qwen 3.5‑Flash 的 API,费用如下:

操作价格(每 1 M 令牌)
Input$0.10
Output$0.40
Cache Creation$0.125
Cache Read$0.01
Tool Calling – Web Search$10 per 1 000 calls
Tool Calling – Code InterpreterFree (limited‑time offer)

与其他主流 LLM API 的费用对比

模型输入输出总费用*来源
Qwen 3 Turbo$0.05$0.20$0.25Alibaba Cloud
Qwen 3.5‑Flash$0.10$0.40$0.50Alibaba Cloud
DeepSeek‑Chat (v3.2‑Exp)$0.28$0.42$0.70DeepSeek
DeepSeek‑Reasoner (v3.2‑Exp)$0.28$0.42$0.70DeepSeek
Grok 4.1 Fast (reasoning)$0.20$0.50$0.70xAI
Grok 4.1 Fast (non‑reasoning)$0.20$0.50$0.70xAI

*总费用 = 输入 + 输出(每 1 M 令牌)。

Qwen 3.5‑Flash 因此是全球最具性价比的 LLM API 之一。

所有信息截至 2026 年 2 月 28 日。

模型定价概览

模型输入 $ / 1K 标记输出 $ / 1K 标记总计 $ / 1K 标记*提供商
MiniMax M2.50.151.201.35MiniMax
MiniMax M2.5‑Lightning0.302.402.70MiniMax
Gemini 3 Flash Preview0.503.003.50Google
Kimi‑k2.50.603.003.60Moonshot
GLM‑51.003.204.20Z.ai
ERNIE 5.00.853.404.25Baidu
Claude Haiku 4.51.005.006.00Anthropic
Qwen3‑Max (2026‑01‑23)1.206.007.20Alibaba Cloud
Gemini 3 Pro (≤200K)2.0012.0014.00Google
GPT‑5.21.7514.0015.75OpenAI
Claude Sonnet 4.53.0015.0018.00Anthropic
Gemini 3 Pro (>200K)4.0018.0022.00Google
Claude Opus 4.65.0025.0030.00Anthropic
GPT‑5.2 Pro21.00168.00189.00OpenAI

*总计 = 输入 + 输出 每 1 K 标记的费用(四舍五入至两位小数)。

对企业技术领袖和决策者的意义

随着 Qwen 3.5 中等模型 的发布,快速迭代和微调——曾经是资金充足实验室的专属领域——现在对许多非技术公司在本地进行开发也变得可行。这实际上将复杂的 AI 与巨额资本支出解耦。

在整个组织中,这种架构改变了数据的处理和安全方式。能够 本地 吞吐海量文档库或小时级视频,使得在不承担第三方 API 隐私风险的情况下进行深入的机构分析成为可能。

通过在私有防火墙内运行这些专用的 Mixture‑of‑Experts 模型,组织可以保持对数据的主权控制,同时利用原生的“思考”模式和官方的工具调用能力,构建更可靠的自主代理。

Hugging Face 的早期采用者特别称赞该模型在代理场景中能够 “缩小差距”,此前只有规模最大的闭源模型才能竞争。

这种向 架构效率胜过原始规模 的转变,确保 AI 集成保持成本意识、安全可靠,并且足够灵活以跟上不断变化的运营需求。

0 浏览
Back to Blog

相关文章

阅读更多 »

GPT-5.3 即时系统卡

介绍 GPT‑5.3 Instant 是 GPT‑5 系列的最新成员。正如我们在博客 https://openai.com/index/gpt-5-3-instant/ 中所描述的,GPT‑5.3 Instant res...