z.ai的开源 GLM-5 实现创纪录的低幻觉率，并利用全新的 RL “slime” 技术

发布: 3天前 (2026年2月12日 GMT+8 08:09)

8 分钟阅读

原文: VentureBeat

Source: VentureBeat

请提供您希望翻译的具体文本内容，我会按照要求将其译成简体中文并保留原有的格式。

中国 AI 初创公司 Zhupai (z.ai) 宣布 GLM‑5

GLM‑5 是 Zhupai 的 GLM 系列最新的大型语言模型（LLM）。它在 MIT 开源许可证下发布，适合企业部署。主要成就包括：

在独立的 Artificial Analysis Intelligence Index v4.0（AA‑Omniscience Index）上实现 创纪录的低幻觉率（得分：‑1，比 GLM‑4.5 提升了 35 分）。
行业领先的知识可靠性——模型倾向于选择回避而非捏造，优于美国竞争对手如 Google、OpenAI 和 Anthropic。
原生“Agent Mode”，可将原始提示或源材料直接转换为专业办公文档（.docx、.pdf、.xlsx）。

定价

输入 token： ~ $0.80 / 1 M token
输出 token： ~ $2.56 / 1 M token

这大约比 Claude Opus 4.6 等专有竞争对手 便宜 6 倍。

技术：面向代理效率的扩展

特性	详情
Parameters	总计 744 B（相较于 GLM‑4.5 的 355 B 增长），通过 Mixture‑of‑Experts (MoE) 架构实现每个 token 40 B 的激活
Pre‑training data	28.5 T 令牌
Context length	200 K 令牌（由 DeepSeek Sparse Attention 提供支持）
Training infrastructure	“Slime”——一种异步强化学习（RL）系统，打破同步瓶颈。包括 Active Partial Rollouts (APRIL) 以缩短 RL 训练时间。
System architecture	1. 训练模块 – 由 Megatron‑LM 提供动力 2. 推演模块 – 基于 SGLang 并使用自定义路由器，实现高吞吐量数据生成 3. 数据缓冲区 – 管理提示初始化和推演存储
Agentic capabilities	自适应可验证环境、多轮编译反馈循环，以及面向长时程任务的高吞吐量生成。

端到端知识工作

GLM‑5 被定位为 AGI 时代的“办公”工具：

文档生成： 将提示转换为可直接使用的 .docx、.pdf 和 .xlsx 文件（例如，财务报告、赞助提案、复杂电子表格）。
代理式工程： 人类定义质量门槛；模型负责执行，将高层目标分解为可操作的子任务。

基准性能

基准	GLM‑5 分数	竞争对手
SWE‑bench Verified	77.8	Gemini 3 Pro (76.2)
Vending Bench 2（业务模拟）	$4,432.12（最终余额）	开源模型中排名第一
AA‑Omniscience Index	‑1	相比 GLM‑4.5 提升 35 分

根据 Artificial Analysis，GLM‑5 现已成为全球最强的开源模型，超越两周前发布的 Moonshot 的 Kimi K2.5。

成本比较

模型	输入（每 1 M tokens）	输出（每 1 M tokens）	总计（1 M 输入 + 1 M 输出）	来源
Qwen 3 Turbo	$0.05	$0.20	$0.25	Alibaba Cloud
Grok 4.1 Fast（推理）	$0.20	$0.50	$0.70	xAI
Grok 4.1 Fast（非推理）	$0.20	$0.50	$0.70	xAI
deepseek‑chat（V3.2‑Exp）	$0.28	$0.42	$0.70	DeepSeek
deepseek‑reasoner（V3.2‑Exp）	$0.28	$0.42	$0.70	DeepSeek
Gemini 3 Flash Preview	$0.50	$3.00	$3.50	Google
Kimi‑k2.5	$0.60	$3.00	$3.60	Moonshot
GLM‑5	$1.00	$3.20	$4.20	Z.ai
ERNIE 5.0	$0.85	$3.40	$4.25	Qianfan
Claude Haiku 4.5	$1.00	$5.00	$6.00	Anthropic
Qwen3‑Max（2026‑01‑23）	$1.20	$6.00	$7.20	Alibaba Cloud
Gemini 3 Pro（≤200K）	$2.00	$12.00	$14.00	Google
GPT‑5.2	$1.75	$14.00	$15.75	OpenAI
Claude Sonnet 4.5	$3.00	$15.00	$18.00	Anthropic
Gemini 3 Pro（>200K）	$4.00	$18.00	$22.00	Google
Claude Opus 4.6	$5.00	$25.00	$30.00	Anthropic
GPT‑5.2 Pro	$21.00	$168.00	$189.00	OpenAI

GLM‑5 的输入成本约为 Claude Opus 4.6 的 1/6，输出成本约为其 1/10。

附加说明

在 OpenRouter (2026年2月11日) 上的发布证实了关于智谱 AI（Zhupai 的母公司）幕后是隐身模型 “Pony Alpha” 的传闻，该模型此前在平台上主导了编码基准测试。
尽管定价激进，GLM‑5 仍提供顶级基准性能，使其成为寻求高质量、性价比高的 LLM 能力的企业的“超值”选择。

基准测试与低成本

并非所有早期用户都对该模型感到热情，他们指出其高性能并未说明全部情况。

Lukas Petersson，专注安全的自主 AI 协议初创公司 Andon Labs 的联合创始人在 X 上评论道：
“经过数小时阅读 GLM‑5 的追踪记录：模型极其高效，但情境感知能力远逊。它通过激进的策略实现目标，却不对自身情境进行推理或利用经验。这很可怕。这就是会产生 paperclip maximizer 的方式。”

paperclip maximizer 指的是牛津哲学家 Nick Bostrom（2003）描述的一个假设情景，其中人工智能追求看似良性的目标——例如最大化回形针的生产——到极端程度，可能导致灾难性后果。

Source: …

您的企业应该采用 GLM‑5 吗？

战略优势

开源许可 – MIT 许可证并提供开放权重，允许组织自行托管前沿水平的智能模型。
降低供应商锁定 – 完全掌控部署和定制，区别于闭源竞争对手。

实际约束

硬件需求 – 744 B 参数量需要大量 GPU 资源，对小型企业可能难以负担。
地缘政治考量 – 受监管行业的企业在采用中国研发的模型时，需要评估数据驻留和来源风险。

治理风险

自主 AI 代理带来新的治理挑战。
随着模型从“聊天”转向“工作”，它们会在应用和文件之间自主运行。
若缺乏完善的 agent‑specific permissions（代理专属权限）和 human‑in‑the‑loop quality gates（人工在环质量关卡），自主错误的风险会显著上升。

理想使用场景

已经超出简单协作助手需求，准备构建真正自主办公环境的组织。
需要重构遗留后端或创建持续运行的“自愈”流水线的工程师。

当西方实验室继续优化 “思考” 与推理深度时，Zai 正在优化 执行与规模。

Bottom Line

今天采用 GLM‑5 的企业不仅仅是在购买更便宜的模型；他们在押注一个未来——最有价值的 AI 是那种能够 一次就完成项目 的 AI。