[论文] ShapleyLaw:一种基于博弈论的多语言 Scaling Laws 方法

发布: (2026年3月19日 GMT+8 01:17)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.17945v1

概述

多语言语言模型在混合多种语言的数据上进行训练,每种语言的比例——其 混合比率 ——对最终模型的性能有巨大的影响。论文 “ShapleyLaw: A Game‑Theoretic Approach to Multilingual Scaling Laws” 提出了一种新方法,通过将每种语言视为合作博弈中的玩家,并衡量其对整体损失降低的真实贡献,来预测最佳的混合比率。

关键贡献

  • Game‑theoretic framing: 将多语言预训练建模为一个合作博弈,其中每种语言的贡献通过其 Shapley 值量化。
  • ShapleyLaw scaling law: 推导出一种多语言扩展定律,显式地加入跨语言迁移效应,而先前的扩展定律未考虑此因素。
  • Accurate prediction: 表明 ShapleyLaw 在广泛的混合比例范围内比现有基线更准确地预测测试损失。
  • Mixture‑ratio optimization: 展示使用 ShapleyLaw 选择语言比例能够在下游多语言基准上持续获得更低的损失(即更好的性能)。
  • Extensive empirical validation: 在多个多语言语料库(如 mC4、CC100)和模型规模(从 125 M 到 2 B 参数)上的实验验证了该方法的鲁棒性。

方法论

  1. 数据驱动的游戏定义 – 对于给定的预训练运行,收益 是相对于随机猜测基线的测试损失降低。每种语言的数据切片视为一个“玩家”。
  2. Shapley 值估计 – 由于计算精确的 Shapley 值是组合性的,作者使用蒙特卡洛抽样并对语言进行分层子集抽样,以近似每种语言的边际贡献。
  3. 尺度律公式化 – 他们拟合一个参数化函数,将语言混合比例(以及模型规模)映射到期望损失,并将 Shapley 派生的贡献项嵌入其中。
  4. 优化循环 – 对混合比例求该拟合律的导数,并使用约束优化器(投影梯度下降)在满足总体数据预算的前提下找到最小化预测损失的比例向量。

整个管道轻量化:少量的预训练运行(≈ 5–10 次)即可校准该律,之后的预测基本是免费完成的。

结果与发现

设置基线缩放律(无迁移)ShapleyLaw相对损失降低
125 M 模型,10 语言混合1.42 %1.31 %7.8 %
2 B 模型,30 语言混合0.87 %0.78 %10.3 %
优化混合(ShapleyLaw) vs. 均匀+3.4 % BLEU on XNLI
  • 预测准确性: 在保留的混合比例上的平均绝对误差(MAE)从基线的约 0.12 降至使用 ShapleyLaw 的约 0.04。
  • 跨语言迁移捕获: 语言类型相似(例如西班牙语和葡萄牙语)的语言获得更高的 Shapley 值,证实该方法量化了有益的迁移。
  • 鲁棒性: 该规律在不同模型架构(Transformer‑Base、Transformer‑XL)和数据来源上均成立,表明其具有普遍适用性。

实际意义

  • 数据预算: 公司现在可以更智能地分配标注或爬取资源,重点关注为多语言模型带来最大“回报”的语言。
  • 模型扩展决策: 在扩大模型规模时,ShapleyLaw 告诉你是保持相同的混合比例,还是转向受益于迁移学习更多的低资源语言。
  • 快速原型: 开发者无需进行数十次昂贵的预训练实验,只需运行少量小规模实验,拟合 ShapleyLaw,即可瞬间探索任意混合比例的性能图谱。
  • 公平性与覆盖率: 通过揭示每种语言的真实贡献,团队可以发现某些语言虽然代表性不足但仍具价值的情况,从而实现更公平的多语言产品。

限制与未来工作

  • 近似成本: 虽然 Monte‑Carlo Shapley 估计比穷举要便宜得多,但仍然需要多次预训练运行,对于非常大的模型可能成本过高。
  • 静态语料库假设: 当前的表述将预训练语料库视为固定的;动态数据流(例如持续学习)未被考虑。
  • 语言粒度: 该方法将一种语言的所有数据聚合为单一玩家;未来工作可以将方言或文字变体建模为独立玩家,以捕获更细粒度的迁移。
  • 超越损失: 将 ShapleyLaw 扩展到预测其他下游指标(例如零样本迁移准确率、公平性分数)是一个开放的研究方向。

ShapleyLaw 弥合了理论博弈论公平概念与多语言 AI 开发的实际需求之间的鸿沟,为工程师提供了一个数据驱动的指南针,以构建更高效、更高性能的多语言模型。

作者

  • Xuyang Cao
  • Qianying Liu
  • Chuan Xiao
  • Yusuke Oda
  • Pontus Stenetorp
  • Daisuke Kawahara
  • Makoto Onizuka
  • Sadao Kurohashi
  • Shuyuan Zheng

论文信息

  • arXiv ID: 2603.17945v1
  • 分类: cs.CL
  • 发布日期: 2026年3月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »