[论文] ShapleyLaw：一种基于博弈论的多语言 Scaling Laws 方法

发布: 1天前 (2026年3月19日 GMT+8 01:17)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.17945v1

概述

多语言语言模型在混合多种语言的数据上进行训练，每种语言的比例——其 混合比率 ——对最终模型的性能有巨大的影响。论文 “ShapleyLaw: A Game‑Theoretic Approach to Multilingual Scaling Laws” 提出了一种新方法，通过将每种语言视为合作博弈中的玩家，并衡量其对整体损失降低的真实贡献，来预测最佳的混合比率。

关键贡献

Game‑theoretic framing: 将多语言预训练建模为一个合作博弈，其中每种语言的贡献通过其 Shapley 值量化。
ShapleyLaw scaling law: 推导出一种多语言扩展定律，显式地加入跨语言迁移效应，而先前的扩展定律未考虑此因素。
Accurate prediction: 表明 ShapleyLaw 在广泛的混合比例范围内比现有基线更准确地预测测试损失。
Mixture‑ratio optimization: 展示使用 ShapleyLaw 选择语言比例能够在下游多语言基准上持续获得更低的损失（即更好的性能）。
Extensive empirical validation: 在多个多语言语料库（如 mC4、CC100）和模型规模（从 125 M 到 2 B 参数）上的实验验证了该方法的鲁棒性。

方法论

数据驱动的游戏定义 – 对于给定的预训练运行，收益是相对于随机猜测基线的测试损失降低。每种语言的数据切片视为一个“玩家”。
Shapley 值估计 – 由于计算精确的 Shapley 值是组合性的，作者使用蒙特卡洛抽样并对语言进行分层子集抽样，以近似每种语言的边际贡献。
尺度律公式化 – 他们拟合一个参数化函数，将语言混合比例（以及模型规模）映射到期望损失，并将 Shapley 派生的贡献项嵌入其中。
优化循环 – 对混合比例求该拟合律的导数，并使用约束优化器（投影梯度下降）在满足总体数据预算的前提下找到最小化预测损失的比例向量。

整个管道轻量化：少量的预训练运行（≈ 5–10 次）即可校准该律，之后的预测基本是免费完成的。

结果与发现

设置	基线缩放律（无迁移）	ShapleyLaw	相对损失降低
125 M 模型，10 语言混合	1.42 %	1.31 %	7.8 %
2 B 模型，30 语言混合	0.87 %	0.78 %	10.3 %
优化混合（ShapleyLaw） vs. 均匀	–	+3.4 % BLEU on XNLI	–

预测准确性： 在保留的混合比例上的平均绝对误差（MAE）从基线的约 0.12 降至使用 ShapleyLaw 的约 0.04。
跨语言迁移捕获： 语言类型相似（例如西班牙语和葡萄牙语）的语言获得更高的 Shapley 值，证实该方法量化了有益的迁移。
鲁棒性： 该规律在不同模型架构（Transformer‑Base、Transformer‑XL）和数据来源上均成立，表明其具有普遍适用性。

实际意义

数据预算: 公司现在可以更智能地分配标注或爬取资源，重点关注为多语言模型带来最大“回报”的语言。
模型扩展决策: 在扩大模型规模时，ShapleyLaw 告诉你是保持相同的混合比例，还是转向受益于迁移学习更多的低资源语言。
快速原型: 开发者无需进行数十次昂贵的预训练实验，只需运行少量小规模实验，拟合 ShapleyLaw，即可瞬间探索任意混合比例的性能图谱。
公平性与覆盖率: 通过揭示每种语言的真实贡献，团队可以发现某些语言虽然代表性不足但仍具价值的情况，从而实现更公平的多语言产品。

限制与未来工作

近似成本： 虽然 Monte‑Carlo Shapley 估计比穷举要便宜得多，但仍然需要多次预训练运行，对于非常大的模型可能成本过高。
静态语料库假设： 当前的表述将预训练语料库视为固定的；动态数据流（例如持续学习）未被考虑。
语言粒度： 该方法将一种语言的所有数据聚合为单一玩家；未来工作可以将方言或文字变体建模为独立玩家，以捕获更细粒度的迁移。
超越损失： 将 ShapleyLaw 扩展到预测其他下游指标（例如零样本迁移准确率、公平性分数）是一个开放的研究方向。

ShapleyLaw 弥合了理论博弈论公平概念与多语言 AI 开发的实际需求之间的鸿沟，为工程师提供了一个数据驱动的指南针，以构建更高效、更高性能的多语言模型。

作者

Xuyang Cao
Qianying Liu
Chuan Xiao
Yusuke Oda
Pontus Stenetorp
Daisuke Kawahara
Makoto Onizuka
Sadao Kurohashi
Shuyuan Zheng

论文信息

arXiv ID: 2603.17945v1
分类: cs.CL
发布日期: 2026年3月18日
PDF: 下载 PDF

[论文] ShapleyLaw：一种基于博弈论的多语言 Scaling Laws 方法

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Loc3R-VLM：基于语言的定位与3D推理的视觉语言模型

[Paper] 机器翻译中的性别消歧：Decoder-Only 架构的诊断评估

[Paper] 高效免训练多标记预测 via Embedding-Space Probing

[Paper] 只有相对排名在权重聚类的大语言模型中重要