[Paper] EMO:预训练 Mixture of Experts 以实现涌现模块化

发布: (2026年5月8日 GMT+8 01:59)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.06663v1

概述

该论文 EMO: Pretraining Mixture of Experts for Emergent Modularity 解决了大型语言模型(LLMs)长期存在的痛点:模型是单体的,这意味着即使下游任务只需要其知识的狭窄片段(例如代码生成或数学推理),也必须加载整个模型。EMO 提出了一种新的 Mixture‑of‑Experts(MoE)预训练方案,能够 自动 将专家划分为连贯的、特定领域的模块,使开发者在推理时只加载和运行相关子集,而几乎不损失质量。

关键贡献

  • 在无手工先验的情况下实现涌现模块化 – 引入一种简单的训练约束,使同一文档中的 token 必须从共享池中抽取专家,从而让领域级别的专家组自然形成。
  • 可扩展的预训练 – 在一万亿 token 上训练一个 1 B 参数的“活跃” MoE(总计 14 B 参数),在使用完整模型时匹配传统 MoE 的性能。
  • 选择性专家激活 – 证明仅保留 25 %(甚至 12.5 %)的专家,只会导致准确率下降 1 %(或 3 %),而标准 MoE 在同等剪枝下会崩溃。
  • 语义专家专精 – 表明 EMO 的专家子集在高层语义领域(例如数学、编程)上专精,而不是经典 MoE 中的低层句法模式。
  • 内存高效部署蓝图 – 提供了一条在内存受限设备上部署大规模稀疏模型的具体路径,仅加载所需的专家池。

方法论

  1. 文档级专家池 – 在预训练期间,每个输入文档被分配一个 共享专家池(所有专家的一个小随机子集)。该文档中的所有 token 只能路由到池内的专家。不同文档获得不同的池,鼓励模型发现哪些专家最适合特定领域。
  2. 标准 MoE 路由 + 池约束 – 保持常规的 top‑k 路由(例如,每个 token 路由到 top‑2 专家),但候选列表与文档的池取交集。这样几乎没有额外开销,同时强制分组偏置。
  3. 训练方案 – 模型在 1 T token 上进行训练,使用与典型语言模型预训练相同的目标(下一个 token 预测)。不需要额外的领域或任务监督;文档边界是唯一的信号。
  4. 推理灵活性 – 在测试时,用户可以 (a) 运行完整模型,(b) 指定领域并仅加载对应的专家池,或 (c) 任意剪枝一定比例的专家。路由机制会自动回退到可用的专家。

结果与发现

设置指标(例如,标准语言模型基准的平均准确率)相较完整 MoE 的下降
Full EMO(所有专家)≈ 基准 MoE 性能
保留 25 % 专家< 1 % 绝对损失最小
保留 12.5 % 专家≈ 3 % 绝对损失仍可使用
使用相同剪枝的标准 MoE> 10 % 损失,常常灾难性

其他观察

  • 语义聚类 – 对学习到的专家进行探测,发现与高级主题(数学、代码、科学文本)对齐的明显聚类。
  • 稳定性 – 新出现的模块化在训练早期(约 200 B 令牌后)出现并持续,表明该约束具有鲁棒性。
  • 计算开销 – 与普通 MoE 相比,池约束额外增加 < 2 % FLOPs。

实际影响

  • 在边缘 / 低内存服务器上部署 – 公司可以只发布一个 14 B 参数的 MoE 模型,但仅加载与某 SaaS 功能(例如代码补全)相关的 3–4 B 参数专家池,从而将 RAM 使用量降低 75 % 以上。
  • 领域特定微调成本更低 – 与其为每个细分领域微调完整模型,开发者可以仅对已经在该领域专精的专家池进行微调,从而加快迭代周期。
  • 可组合的 AI 服务 – 多个专家池可以即时组合,构建多模态流水线(例如,需要数学推理和代码生成的聊天机器人),无需重新加载整个模型。
  • 性价比高的推理 – 云服务商可以按使用的专家计费,提供分层定价(基础域 vs. 高级域),同时因每次请求激活的专家更少而保持低延迟。
  • 简化模型管理 – 单一检查点取代了大量任务特定模型,减少了版本管理的麻烦和存储开销。

Limitations & Future Work

  • 文档边界假设 – EMO 依赖于文档内的 token 共享同一领域的概念;高度异构的文档可能会削弱专家的专精化。
  • 静态专家池 – 该池在训练时随机选择并保持固定;基于输入内容的动态池选择可能进一步提升效率。
  • 可扩展性至数千亿参数 – 实验止步于 14 B 总参数;在 100 B 以上模型规模下,涌现的模块化行为如何仍是未解之谜。
  • 下游任务评估 – 论文聚焦于语言模型基准;真实世界的下游评估(例如代码生成 API、检索增强问答)将巩固其实用性声明。
  • 安全性与公平性 – 将专家进行划分可能无意中隔离偏见缓解机制;未来工作应探讨模块化如何与负责任的 AI 保障措施互动。

作者

  • Ryan Wang
  • Akshita Bhagia
  • Sewon Min

论文信息

  • arXiv ID: 2605.06663v1
  • 分类: cs.CL
  • 发表时间: 2026年5月7日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »