Mixtral专家模型
发布: (2025年12月27日 GMT+8 06:40)
2 min read
原文: Dev.to
Source: Dev.to
概览
Mixtral 8x7B 是一种语言模型,它将任务分配给众多微型专家,从而实现速度与智能的双重提升。它采用 稀疏专家混合(Sparse Mixture of Experts) 架构,每层包含八个前馈块,路由器为每个 token 选择两个专家。所选的两位专家可以在每一步中变化。
架构
- 稀疏专家混合:每个 token 最多可以访问 470 亿参数,但在推理时仅使用约 130 亿活跃参数,从而降低计算成本。
- 路由:一个小型路由器动态为每个 token 挑选两个专家,使模型能够随时调整计算方式。
训练与性能
- 为超长上下文进行训练,支持最高 32 k token。
- 在基准测试中匹配或超越更大模型,尤其在 数学、编码 和 多语言 任务上表现突出。
- 指令微调版本在人类评估中超过了多款流行的聊天模型。
基础模型和指令微调模型均在 Apache 2.0 许可证下发布,社区可自由进行实验。
进一步阅读
Mixtral of Experts – Paperium.net 上的全面评测。
本分析与评测主要由 AI 生成和结构化,内容仅供信息参考和快速浏览之用。