【论文】Olmix:在语言模型开发全过程中的数据混合框架

发布: (2026年2月13日 GMT+8 02:16)
9 分钟阅读
原文: arXiv

Source: arXiv - 2602.12237v1

Overview

训练大型语言模型(LLM)通常需要从许多不同来源获取数据——新闻文章、代码仓库、科学论文等。决定每个来源使用多少(即“混合比例”)会对模型质量产生巨大的影响,然而大多数现有方法假设域集合是静态的,并且对涉及的众多设计选择几乎没有提供指导。论文 Olmix: A Framework for Data Mixing Throughout LM Development 通过以下两点填补了这一空白:

  1. 系统性地映射混合策略的设计空间;
  2. 引入混合复用(mixture reuse),这是一种技术,允许开发者在模型生命周期内随着域池的演变高效地更新数据混合。

关键贡献

  • 全面的实证研究混合‑方法设计空间,精准定位哪些超参数和启发式方法实际上对强性能至关重要。
  • 混合复用算法仅对已更改的域比例进行重新优化,对其余域使用先前计算的比例。
  • 真实场景模拟对五次连续的域集合更新(新增、删除、拆分),模拟生产团队在数据管道上的迭代方式。
  • 计算节省:混合复用在实现与从头重新计算混合相同的下游性能的同时,将所需计算量降低约 ~74 %
  • 性能提升:使用 Olmix 的混合策略训练的模型在下游评估任务中相较于使用原始拼接数据的基线提升 +11.6 %

方法论

  1. 定义混合设计空间 – 作者列举了现有混合方法操作的参数,例如:

    • Domain weighting heuristics(如 uniform、size‑based、loss‑based)
    • Optimization objective(如 最小化验证损失、最大化任务特定指标)
    • Update frequency(混合重新计算的频率)
    • Constraints(每个领域的最大/最小数据量、总体预算)
  2. 经验网格搜索 – 他们在一套公共语料库(Wikipedia、Common Crawl、代码、科学文本等)上进行大规模网格搜索,遍历这些参数,观察哪些组合能够持续获得最佳的验证损失和下游得分。

  3. 混合复用机制 – 当领域集合变化(例如加入新数据集)时,算法:

    • 识别受影响的领域(新加入的、被移除的或被拆分的领域)。
    • 保持不变领域的旧比例
    • 仅对受影响子集重新优化比例,使用与原始混合相同的目标函数。
      这本质上是对混合优化器的 warm‑start,避免了完整的重新计算。
  4. 评估流程 – 作者模拟真实的开发周期:在每一次五次领域集合更新后,他们使用 (a) 完全重新计算的混合、(b) 混合复用、以及 (c) 朴素的 “no‑mix” 基线,训练全新的语言模型。随后在多个下游任务(问答、代码补全、摘要)上微调每个模型,并报告任务特定的指标。

结果与发现

场景计算(相对)下游 Avg. Score ↑
不混合(原始拼接)1.0xbaseline
每次更新全部重新计算1.0x(每次更新)+11.6 % 超过 baseline
混合复用0.26x 每次更新(≈节省 74 %)statistically indistinguishable 与全部重新计算
  • 设计空间洞察:基于 Loss‑based weighting(使用小的验证集来衡量每个领域的难度)始终优于简单的基于大小或均匀混合。加入 minimum‑data 约束防止了低资源领域的 catastrophic forgetting
  • 混合复用的鲁棒性:即使在多次非平凡的领域变化后(包括将大型语料库拆分为主题子领域),复用仍保持性能,证实未变领域的最优比例在更新之间是稳定的。

实际意义

  • 更快的迭代周期 – 团队现在可以在不承担重新优化整个混合的全部成本的情况下,微调数据管道(添加新领域、剔除噪声数据或重新划分语料库)。这在大规模 LLM 项目中尤为有价值,因为每次完整的混合计算可能需要数千 GPU 小时。
  • 更好的资源分配 – 通过识别最具影响力的混合启发式方法,开发者可以将工程精力集中在基于损失的加权和约束处理上,而不是在任意比例上进行反复试验。
  • 持续的数据漂移处理 – 在生产环境中,数据源会不断演变(例如,新 API、更新的文档)。Olmix 的复用策略提供了一种原则性的方法,使模型的训练分布能够与最新数据保持一致,而不会导致性能不稳定。
  • 开源潜力 – 该框架是模块化的;可以作为预处理步骤嵌入现有训练流水线(例如 Hugging Face 🤗 Transformers、DeepSpeed),输出加权采样计划。

限制与未来工作

  • 领域范围 – 实证研究聚焦于少数公开语料库;异域或高度不平衡的领域(例如低资源语言)可能表现不同。
  • 优化开销 – 虽然混合复用大幅削减计算量,但最初的全混合优化仍需相当的预算,对非常大的领域集合可能难以承受。
  • 训练期间的动态加权 – 当前方法在每次训练前重新计算静态混合。未来工作可以探索 在线 混合,使比例在模型损失曲面演化时持续自适应。
  • 任务特定混合 – 论文针对通用验证损失进行优化;将框架扩展至直接针对下游任务指标(例如翻译的 BLEU)可能带来进一步提升。

Olmix 提供了一个务实、以数据为中心的工具集,弥合了学术混合策略与生产 LLM 开发中混乱现实之间的鸿沟。通过澄清设计空间并提供计算高效的复用机制,它使工程师能够更快迭代、更智能地分配数据,最终交付更高质量的语言模型。

作者

  • Mayee F. Chen
  • Tyler Murray
  • David Heineman
  • Matt Jordan
  • Hannaneh Hajishirzi
  • Christopher Ré
  • Luca Soldaini
  • Kyle Lo

论文信息

  • arXiv ID: 2602.12237v1
  • 分类: cs.LG, cs.AI, cs.CL
  • 发表时间: 2026年2月12日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »