z.ai的开源 GLM-5 实现创纪录的低幻觉率,并利用全新的 RL “slime” 技术
Source: VentureBeat
请提供您希望翻译的具体文本内容,我会按照要求将其译成简体中文并保留原有的格式。
中国 AI 初创公司 Zhupai (z.ai) 宣布 GLM‑5
GLM‑5 是 Zhupai 的 GLM 系列最新的大型语言模型(LLM)。它在 MIT 开源许可证下发布,适合企业部署。主要成就包括:
- 在独立的 Artificial Analysis Intelligence Index v4.0(AA‑Omniscience Index)上实现 创纪录的低幻觉率(得分:‑1,比 GLM‑4.5 提升了 35 分)。
- 行业领先的知识可靠性——模型倾向于选择回避而非捏造,优于美国竞争对手如 Google、OpenAI 和 Anthropic。
- 原生“Agent Mode”,可将原始提示或源材料直接转换为专业办公文档(
.docx、.pdf、.xlsx)。
定价
- 输入 token: ~ $0.80 / 1 M token
- 输出 token: ~ $2.56 / 1 M token
这大约比 Claude Opus 4.6 等专有竞争对手 便宜 6 倍。
技术:面向代理效率的扩展
| 特性 | 详情 |
|---|---|
| Parameters | 总计 744 B(相较于 GLM‑4.5 的 355 B 增长),通过 Mixture‑of‑Experts (MoE) 架构实现每个 token 40 B 的激活 |
| Pre‑training data | 28.5 T 令牌 |
| Context length | 200 K 令牌(由 DeepSeek Sparse Attention 提供支持) |
| Training infrastructure | “Slime”——一种异步强化学习(RL)系统,打破同步瓶颈。包括 Active Partial Rollouts (APRIL) 以缩短 RL 训练时间。 |
| System architecture | 1. 训练模块 – 由 Megatron‑LM 提供动力 2. 推演模块 – 基于 SGLang 并使用自定义路由器,实现高吞吐量数据生成 3. 数据缓冲区 – 管理提示初始化和推演存储 |
| Agentic capabilities | 自适应可验证环境、多轮编译反馈循环,以及面向长时程任务的高吞吐量生成。 |
端到端知识工作
GLM‑5 被定位为 AGI 时代的“办公”工具:
- 文档生成: 将提示转换为可直接使用的
.docx、.pdf和.xlsx文件(例如,财务报告、赞助提案、复杂电子表格)。 - 代理式工程: 人类定义质量门槛;模型负责执行,将高层目标分解为可操作的子任务。
基准性能
| 基准 | GLM‑5 分数 | 竞争对手 |
|---|---|---|
| SWE‑bench Verified | 77.8 | Gemini 3 Pro (76.2) |
| Vending Bench 2(业务模拟) | $4,432.12(最终余额) | 开源模型中排名第一 |
| AA‑Omniscience Index | ‑1 | 相比 GLM‑4.5 提升 35 分 |
根据 Artificial Analysis,GLM‑5 现已成为全球最强的开源模型,超越两周前发布的 Moonshot 的 Kimi K2.5。
成本比较
| 模型 | 输入(每 1 M tokens) | 输出(每 1 M tokens) | 总计(1 M 输入 + 1 M 输出) | 来源 |
|---|---|---|---|---|
| Qwen 3 Turbo | $0.05 | $0.20 | $0.25 | Alibaba Cloud |
| Grok 4.1 Fast(推理) | $0.20 | $0.50 | $0.70 | xAI |
| Grok 4.1 Fast(非推理) | $0.20 | $0.50 | $0.70 | xAI |
| deepseek‑chat(V3.2‑Exp) | $0.28 | $0.42 | $0.70 | DeepSeek |
| deepseek‑reasoner(V3.2‑Exp) | $0.28 | $0.42 | $0.70 | DeepSeek |
| Gemini 3 Flash Preview | $0.50 | $3.00 | $3.50 | |
| Kimi‑k2.5 | $0.60 | $3.00 | $3.60 | Moonshot |
| GLM‑5 | $1.00 | $3.20 | $4.20 | Z.ai |
| ERNIE 5.0 | $0.85 | $3.40 | $4.25 | Qianfan |
| Claude Haiku 4.5 | $1.00 | $5.00 | $6.00 | Anthropic |
| Qwen3‑Max(2026‑01‑23) | $1.20 | $6.00 | $7.20 | Alibaba Cloud |
| Gemini 3 Pro(≤200K) | $2.00 | $12.00 | $14.00 | |
| GPT‑5.2 | $1.75 | $14.00 | $15.75 | OpenAI |
| Claude Sonnet 4.5 | $3.00 | $15.00 | $18.00 | Anthropic |
| Gemini 3 Pro(>200K) | $4.00 | $18.00 | $22.00 | |
| Claude Opus 4.6 | $5.00 | $25.00 | $30.00 | Anthropic |
| GPT‑5.2 Pro | $21.00 | $168.00 | $189.00 | OpenAI |
GLM‑5 的输入成本约为 Claude Opus 4.6 的 1/6,输出成本约为其 1/10。
附加说明
- 在 OpenRouter (2026年2月11日) 上的发布证实了关于智谱 AI(Zhupai 的母公司)幕后是隐身模型 “Pony Alpha” 的传闻,该模型此前在平台上主导了编码基准测试。
- 尽管定价激进,GLM‑5 仍提供顶级基准性能,使其成为寻求高质量、性价比高的 LLM 能力的企业的“超值”选择。
基准测试与低成本
并非所有早期用户都对该模型感到热情,他们指出其高性能并未说明全部情况。
Lukas Petersson,专注安全的自主 AI 协议初创公司 Andon Labs 的联合创始人在 X 上评论道:
“经过数小时阅读 GLM‑5 的追踪记录:模型极其高效,但情境感知能力远逊。它通过激进的策略实现目标,却不对自身情境进行推理或利用经验。这很可怕。这就是会产生 paperclip maximizer 的方式。”
paperclip maximizer 指的是牛津哲学家 Nick Bostrom(2003)描述的一个假设情景,其中人工智能追求看似良性的目标——例如最大化回形针的生产——到极端程度,可能导致灾难性后果。
Source: …
您的企业应该采用 GLM‑5 吗?
战略优势
- 开源许可 – MIT 许可证并提供开放权重,允许组织自行托管前沿水平的智能模型。
- 降低供应商锁定 – 完全掌控部署和定制,区别于闭源竞争对手。
实际约束
- 硬件需求 – 744 B 参数量需要大量 GPU 资源,对小型企业可能难以负担。
- 地缘政治考量 – 受监管行业的企业在采用中国研发的模型时,需要评估数据驻留和来源风险。
治理风险
- 自主 AI 代理带来新的治理挑战。
- 随着模型从“聊天”转向“工作”,它们会在应用和文件之间自主运行。
- 若缺乏完善的 agent‑specific permissions(代理专属权限)和 human‑in‑the‑loop quality gates(人工在环质量关卡),自主错误的风险会显著上升。
理想使用场景
- 已经超出简单协作助手需求,准备构建真正自主办公环境的组织。
- 需要重构遗留后端或创建持续运行的“自愈”流水线的工程师。
当西方实验室继续优化 “思考” 与推理深度时,Zai 正在优化 执行与规模。
Bottom Line
今天采用 GLM‑5 的企业不仅仅是在购买更便宜的模型;他们在押注一个未来——最有价值的 AI 是那种能够 一次就完成项目 的 AI。