Mixtral专家模型

发布: (2025年12月27日 GMT+8 06:40)
2 min read
原文: Dev.to

Source: Dev.to

概览

Mixtral 8x7B 是一种语言模型,它将任务分配给众多微型专家,从而实现速度与智能的双重提升。它采用 稀疏专家混合(Sparse Mixture of Experts) 架构,每层包含八个前馈块,路由器为每个 token 选择两个专家。所选的两位专家可以在每一步中变化。

架构

  • 稀疏专家混合:每个 token 最多可以访问 470 亿参数,但在推理时仅使用约 130 亿活跃参数,从而降低计算成本。
  • 路由:一个小型路由器动态为每个 token 挑选两个专家,使模型能够随时调整计算方式。

训练与性能

  • 为超长上下文进行训练,支持最高 32 k token
  • 在基准测试中匹配或超越更大模型,尤其在 数学编码多语言 任务上表现突出。
  • 指令微调版本在人类评估中超过了多款流行的聊天模型。

基础模型和指令微调模型均在 Apache 2.0 许可证下发布,社区可自由进行实验。

进一步阅读

Mixtral of Experts – Paperium.net 上的全面评测。

本分析与评测主要由 AI 生成和结构化,内容仅供信息参考和快速浏览之用。

Back to Blog

相关文章

阅读更多 »

间接提示注入:完整指南

TL;DR 间接提示注入(Indirect Prompt Injection IPI)是一种隐藏的 AI 安全威胁,恶意指令通过文档等可信内容传递给语言模型,……