小模型,大影响:企业 AI 代理规模化的未来
Source: Red Hat Blog
重新思考 AI 的规模
在 AI 行业,过去三年我们一直沉迷于规模。我们把参数数量追到万亿级,认为 更大 是通往 更智能 的唯一道路。但随着尘埃落定,企业面临的新现实出现了——规模不再是关键指标;能够交付可靠、确定性结果才是关键。
在 Red Hat,我们始终相信最强大的技术是 分布式、开源且适合特定用途 的。小型语言模型(SLM)正是这种转变的体现。小型语言模型与 large language models (LLMs) 之间的区别不如模型所承担的架构角色重要。关键是 功能主权——小模型为业务带来的自主能力。
我们正从对话式 AI 的世界——向一个巨大的黑箱模型提问——转向 agentic AI 的时代,在这个时代,一群专门化的模型将执行业务的实际工作。
每个企业都将运行 AI 代理
我们正站在一次与向网络转型同等根本的变革的边缘。
回顾企业身份的演进:
- 1995 – “我为什么需要电子邮件地址?”
- 2005 – “我为什么需要网站?”
- 2015 – “我为什么需要社交媒体存在?”
- 2026 – “我有多少个代理在运行?”
即将到来的现实
一个 AI 代理数量超过人类 的未来已指日可待。每个企业都将运营一 群体 代理,包括:
- 面向客户的代理 – 不仅仅是回答问题,而是解决复杂的物流问题。
- 工作流代理 – 自动化部门之间那层看不见的“胶水”。
- 无头代理 – 静默执行 API 调用,以对账库存、处理付款等。
为什么专用解决方案很重要
在他人的补贴云代币上构建可持续、成本有效的代理舰队在规模化时并不可行。这正是 服务水平管理(SLM) 平台发挥关键作用的地方——它提供了实现企业用例并可靠扩展 AI 代理运营所必需的工具。
为什么 SLM 主宰代理后端
虽然前沿的大型语言模型(LLM)是高吞吐工程的杰作,但它们往往对作为反射式数字员工的角色来说过于笨重。在代理工作流中,我们需要 低延迟执行 以及原始算力。小型语言模型(SLM)能够提供亚秒级的响应时间和确定性的可靠性——正是业务关键自动化所要求的。
1. 专业化的力量 — 效率 > 规模
对 400 B 参数模型进行微调在实际中很少可行,但 3 B 或 7 B 模型提供了一个可管理且高效的切入点。这正是架构控制开始发挥作用的地方。
- 研究(2025)表明,使用高质量合成数据微调的 350 M 参数模型可以 在工具调用和 API 编排任务上超越通用前沿模型。
- 对于稳健的代理后端来说,目标并非宽泛、诗意的语言能力——而是 高精度的专业化。
2. 确定性与 可靠性数学
企业 AI 必须避免非确定性:一个代理一次能够正确格式化响应,却在下次失败,这是不可接受的。
- 虽然没有 LLM 能够做到完美的确定性函数,但 SLM 让我们能够实施以前难以实现的架构控制。
- 使用 JSON Schema 或 上下文无关文法(CFG) 等受限解码技术可以裁剪 token 搜索空间,使模型不可能生成无效 token。
- 结合本地执行和专门的微调,SLM 在结构化任务上实现 > 98 % 的有效性,提供了敏感代理工作流所需的可预测可靠性。
Read the study on reliability →
3. 数据主权不可或缺
您的数据是最有价值的资产。在代理世界中,模型将处理 CRM 记录、专有代码以及内部策略。将这些数据交给第三方云服务商以换取“智能即服务”是一种战略错误。
- 在 本地 或 混合云 环境中运行 SLM,使您保持对知识产权的所有权。
- 这实现了 零信任 AI 架构,敏感数据永不离开您的边界,满足医疗、金融和政府等行业常见的严格监管要求。
通过利用小型、专门化的模型,我们获得了速度、确定性和控制——这些是构建可信、企业级代理系统的关键要素。
最后思考
我们正从一个 生成式 AI——模型生成对话和内容——的世界,迈向一个 代理式 AI——代替我们采取行动的时代。在这个新格局中,问题不再是 哪个模型最大,而是 哪个基础设施最可靠、最安全。
当你的业务运营依赖于一群专门的数字代理时,传统的“黑箱”云模型已不够。你需要 主权、速度和精确度。
为什么选择 Red Hat?
- 精选的小型语言模型,可以通过 Red Hat AI 产品组合 进行微调、部署和编排。
- 一个开放的混合云基础设施,让你能够把 AI 从实验室搬到业务逻辑的核心。
前进的路径
行业发展迅速,但目标明确:
- 停止追逐巨头。
- 开始构建骨干——一个弹性、开放且高性能的 AI 基础设施。
AI 的未来是 小巧、快速、基于开放混合云。
在 Red Hat 网站上了解更多生成式 AI 信息: Generative AI.