z.ai的开源 GLM-5 实现创纪录的低幻觉率,并利用全新的 RL “slime” 技术

发布: (2026年2月12日 GMT+8 08:09)
8 分钟阅读

Source: VentureBeat

请提供您希望翻译的具体文本内容,我会按照要求将其译成简体中文并保留原有的格式。

中国 AI 初创公司 Zhupai (z.ai) 宣布 GLM‑5

GLM‑5 是 Zhupai 的 GLM 系列最新的大型语言模型(LLM)。它在 MIT 开源许可证下发布,适合企业部署。主要成就包括:

  • 在独立的 Artificial Analysis Intelligence Index v4.0(AA‑Omniscience Index)上实现 创纪录的低幻觉率(得分:‑1,比 GLM‑4.5 提升了 35 分)。
  • 行业领先的知识可靠性——模型倾向于选择回避而非捏造,优于美国竞争对手如 Google、OpenAI 和 Anthropic。
  • 原生“Agent Mode”,可将原始提示或源材料直接转换为专业办公文档(.docx.pdf.xlsx)。

定价

  • 输入 token: ~ $0.80 / 1 M token
  • 输出 token: ~ $2.56 / 1 M token

这大约比 Claude Opus 4.6 等专有竞争对手 便宜 6 倍

技术:面向代理效率的扩展

特性详情
Parameters总计 744 B(相较于 GLM‑4.5 的 355 B 增长),通过 Mixture‑of‑Experts (MoE) 架构实现每个 token 40 B 的激活
Pre‑training data28.5 T 令牌
Context length200 K 令牌(由 DeepSeek Sparse Attention 提供支持)
Training infrastructure“Slime”——一种异步强化学习(RL)系统,打破同步瓶颈。包括 Active Partial Rollouts (APRIL) 以缩短 RL 训练时间。
System architecture1. 训练模块 – 由 Megatron‑LM 提供动力
2. 推演模块 – 基于 SGLang 并使用自定义路由器,实现高吞吐量数据生成
3. 数据缓冲区 – 管理提示初始化和推演存储
Agentic capabilities自适应可验证环境、多轮编译反馈循环,以及面向长时程任务的高吞吐量生成。

端到端知识工作

GLM‑5 被定位为 AGI 时代的“办公”工具:

  • 文档生成: 将提示转换为可直接使用的 .docx.pdf.xlsx 文件(例如,财务报告、赞助提案、复杂电子表格)。
  • 代理式工程: 人类定义质量门槛;模型负责执行,将高层目标分解为可操作的子任务。

基准性能

基准GLM‑5 分数竞争对手
SWE‑bench Verified77.8Gemini 3 Pro (76.2)
Vending Bench 2(业务模拟)$4,432.12(最终余额)开源模型中排名第一
AA‑Omniscience Index‑1相比 GLM‑4.5 提升 35 分

根据 Artificial Analysis,GLM‑5 现已成为全球最强的开源模型,超越两周前发布的 Moonshot 的 Kimi K2.5

成本比较

模型输入(每 1 M tokens)输出(每 1 M tokens)总计(1 M 输入 + 1 M 输出)来源
Qwen 3 Turbo$0.05$0.20$0.25Alibaba Cloud
Grok 4.1 Fast(推理)$0.20$0.50$0.70xAI
Grok 4.1 Fast(非推理)$0.20$0.50$0.70xAI
deepseek‑chat(V3.2‑Exp)$0.28$0.42$0.70DeepSeek
deepseek‑reasoner(V3.2‑Exp)$0.28$0.42$0.70DeepSeek
Gemini 3 Flash Preview$0.50$3.00$3.50Google
Kimi‑k2.5$0.60$3.00$3.60Moonshot
GLM‑5$1.00$3.20$4.20Z.ai
ERNIE 5.0$0.85$3.40$4.25Qianfan
Claude Haiku 4.5$1.00$5.00$6.00Anthropic
Qwen3‑Max(2026‑01‑23)$1.20$6.00$7.20Alibaba Cloud
Gemini 3 Pro(≤200K)$2.00$12.00$14.00Google
GPT‑5.2$1.75$14.00$15.75OpenAI
Claude Sonnet 4.5$3.00$15.00$18.00Anthropic
Gemini 3 Pro(>200K)$4.00$18.00$22.00Google
Claude Opus 4.6$5.00$25.00$30.00Anthropic
GPT‑5.2 Pro$21.00$168.00$189.00OpenAI

GLM‑5 的输入成本约为 Claude Opus 4.6 的 1/6,输出成本约为其 1/10。

附加说明

  • OpenRouter (2026年2月11日) 上的发布证实了关于智谱 AI(Zhupai 的母公司)幕后是隐身模型 “Pony Alpha” 的传闻,该模型此前在平台上主导了编码基准测试。
  • 尽管定价激进,GLM‑5 仍提供顶级基准性能,使其成为寻求高质量、性价比高的 LLM 能力的企业的“超值”选择。

基准测试与低成本

并非所有早期用户都对该模型感到热情,他们指出其高性能并未说明全部情况。

Lukas Petersson,专注安全的自主 AI 协议初创公司 Andon Labs 的联合创始人在 X 上评论道:
“经过数小时阅读 GLM‑5 的追踪记录:模型极其高效,但情境感知能力远逊。它通过激进的策略实现目标,却不对自身情境进行推理或利用经验。这很可怕。这就是会产生 paperclip maximizer 的方式。

paperclip maximizer 指的是牛津哲学家 Nick Bostrom(2003)描述的一个假设情景,其中人工智能追求看似良性的目标——例如最大化回形针的生产——到极端程度,可能导致灾难性后果。

Source:

您的企业应该采用 GLM‑5 吗?

战略优势

  • 开源许可 – MIT 许可证并提供开放权重,允许组织自行托管前沿水平的智能模型。
  • 降低供应商锁定 – 完全掌控部署和定制,区别于闭源竞争对手。

实际约束

  • 硬件需求 – 744 B 参数量需要大量 GPU 资源,对小型企业可能难以负担。
  • 地缘政治考量 – 受监管行业的企业在采用中国研发的模型时,需要评估数据驻留和来源风险。

治理风险

  • 自主 AI 代理带来新的治理挑战。
  • 随着模型从“聊天”转向“工作”,它们会在应用和文件之间自主运行。
  • 若缺乏完善的 agent‑specific permissions(代理专属权限)和 human‑in‑the‑loop quality gates(人工在环质量关卡),自主错误的风险会显著上升。

理想使用场景

  • 已经超出简单协作助手需求,准备构建真正自主办公环境的组织。
  • 需要重构遗留后端或创建持续运行的“自愈”流水线的工程师。

当西方实验室继续优化 “思考” 与推理深度时,Zai 正在优化 执行与规模

Bottom Line

今天采用 GLM‑5 的企业不仅仅是在购买更便宜的模型;他们在押注一个未来——最有价值的 AI 是那种能够 一次就完成项目 的 AI。

0 浏览
Back to Blog

相关文章

阅读更多 »