[Paper] EMO：预训练 Mixture of Experts 以实现涌现模块化

发布: 3天前 (2026年5月8日 GMT+8 01:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.06663v1

概述

该论文 EMO: Pretraining Mixture of Experts for Emergent Modularity 解决了大型语言模型（LLMs）长期存在的痛点：模型是单体的，这意味着即使下游任务只需要其知识的狭窄片段（例如代码生成或数学推理），也必须加载整个模型。EMO 提出了一种新的 Mixture‑of‑Experts（MoE）预训练方案，能够自动将专家划分为连贯的、特定领域的模块，使开发者在推理时只加载和运行相关子集，而几乎不损失质量。

关键贡献

在无手工先验的情况下实现涌现模块化 – 引入一种简单的训练约束，使同一文档中的 token 必须从共享池中抽取专家，从而让领域级别的专家组自然形成。
可扩展的预训练 – 在一万亿 token 上训练一个 1 B 参数的“活跃” MoE（总计 14 B 参数），在使用完整模型时匹配传统 MoE 的性能。
选择性专家激活 – 证明仅保留 25 %（甚至 12.5 %）的专家，只会导致准确率下降 1 %（或 3 %），而标准 MoE 在同等剪枝下会崩溃。
语义专家专精 – 表明 EMO 的专家子集在高层语义领域（例如数学、编程）上专精，而不是经典 MoE 中的低层句法模式。
内存高效部署蓝图 – 提供了一条在内存受限设备上部署大规模稀疏模型的具体路径，仅加载所需的专家池。

方法论

文档级专家池 – 在预训练期间，每个输入文档被分配一个 共享专家池（所有专家的一个小随机子集）。该文档中的所有 token 只能路由到池内的专家。不同文档获得不同的池，鼓励模型发现哪些专家最适合特定领域。
标准 MoE 路由 + 池约束 – 保持常规的 top‑k 路由（例如，每个 token 路由到 top‑2 专家），但候选列表与文档的池取交集。这样几乎没有额外开销，同时强制分组偏置。
训练方案 – 模型在 1 T token 上进行训练，使用与典型语言模型预训练相同的目标（下一个 token 预测）。不需要额外的领域或任务监督；文档边界是唯一的信号。
推理灵活性 – 在测试时，用户可以 (a) 运行完整模型，(b) 指定领域并仅加载对应的专家池，或 (c) 任意剪枝一定比例的专家。路由机制会自动回退到可用的专家。

结果与发现

设置	指标（例如，标准语言模型基准的平均准确率）	相较完整 MoE 的下降
Full EMO（所有专家）	≈ 基准 MoE 性能	–
保留 25 % 专家	< 1 % 绝对损失	最小
保留 12.5 % 专家	≈ 3 % 绝对损失	仍可使用
使用相同剪枝的标准 MoE	> 10 % 损失，常常灾难性	差

其他观察

语义聚类 – 对学习到的专家进行探测，发现与高级主题（数学、代码、科学文本）对齐的明显聚类。
稳定性 – 新出现的模块化在训练早期（约 200 B 令牌后）出现并持续，表明该约束具有鲁棒性。
计算开销 – 与普通 MoE 相比，池约束额外增加 < 2 % FLOPs。

实际影响

在边缘 / 低内存服务器上部署 – 公司可以只发布一个 14 B 参数的 MoE 模型，但仅加载与某 SaaS 功能（例如代码补全）相关的 3–4 B 参数专家池，从而将 RAM 使用量降低 75 % 以上。
领域特定微调成本更低 – 与其为每个细分领域微调完整模型，开发者可以仅对已经在该领域专精的专家池进行微调，从而加快迭代周期。
可组合的 AI 服务 – 多个专家池可以即时组合，构建多模态流水线（例如，需要数学推理和代码生成的聊天机器人），无需重新加载整个模型。
性价比高的推理 – 云服务商可以按使用的专家计费，提供分层定价（基础域 vs. 高级域），同时因每次请求激活的专家更少而保持低延迟。
简化模型管理 – 单一检查点取代了大量任务特定模型，减少了版本管理的麻烦和存储开销。

Limitations & Future Work

文档边界假设 – EMO 依赖于文档内的 token 共享同一领域的概念；高度异构的文档可能会削弱专家的专精化。
静态专家池 – 该池在训练时随机选择并保持固定；基于输入内容的动态池选择可能进一步提升效率。
可扩展性至数千亿参数 – 实验止步于 14 B 总参数；在 100 B 以上模型规模下，涌现的模块化行为如何仍是未解之谜。
下游任务评估 – 论文聚焦于语言模型基准；真实世界的下游评估（例如代码生成 API、检索增强问答）将巩固其实用性声明。
安全性与公平性 – 将专家进行划分可能无意中隔离偏见缓解机制；未来工作应探讨模块化如何与负责任的 AI 保障措施互动。

作者

Ryan Wang
Akshita Bhagia
Sewon Min

论文信息

arXiv ID: 2605.06663v1
分类: cs.CL
发表时间: 2026年5月7日
PDF: 下载 PDF

[Paper] EMO：预训练 Mixture of Experts 以实现涌现模块化

概述

关键贡献

方法论

结果与发现

其他观察

实际影响

Limitations & Future Work

作者

论文信息

相关文章

[Paper] LLMs 改进 LLMs：Agentic Discovery 用于 Test-Time Scaling

[Paper] 记忆诅咒：扩展回忆如何侵蚀 LLM Agents 的合作意图

[Paper] CA‑SQL：复杂度感知推理时间推理用于 Text-to‑SQL 的探索与计算预算分配

[Paper] 不确定性感知的结构化数据提取：通过 Distilled LLMs 从完整 CMR 报告