[Paper] 多语言大型语言模型并未以相同程度理解所有自然语言
发布: (2026年2月24日 GMT+8 01:22)
9 分钟阅读
原文: arXiv
Source: arXiv - 2602.20065v1
请提供您希望翻译的具体文本内容(除代码块和 URL 之外),我将按照要求将其译成简体中文并保持原有的格式。
概述
一项最新研究探讨了三种流行的多语言大型语言模型(LLM)在实际理解多种自然语言方面的表现。通过在涵盖 12 种类型学上截然不同语言的语言理解基准上测试这些模型,作者发现模型的性能差异很大——而且令人惊讶的是,英语并不是任何模型的最强语言。
关键贡献
- 跨语言评估 对三种最先进的多语言大模型在统一理解任务上的表现,覆盖印欧、阿非罗-亚细亚、突厥、汉藏和日语系家族。
- 人与基线比较 表明所有模型均落后于母语使用者,但差距因语言而异。
- 反直觉发现 多个罗曼语系语言(包括资源较少的语言)始终优于英语。
- 系统性分析 影响性能的因素:分词粒度、与英语/西班牙语的语言距离、训练数据的规模与来源,以及 WEIRD 与非 WEIRD 数据的划分。
- 开源基准和提示脚本 以实现可复现性和未来扩展。
Source: …
方法论
- 任务选择 – 作者使用了一种语言理解基准测试,让模型根据短文回答多项选择题(例如,“哪句话最能继续故事?”)。该任务与语言无关,衡量的是纯粹的理解能力,而非生成能力。
- 模型套件 – 评估了三种广泛使用的多语言大模型:
- LLaMA‑2‑13B‑Chat(开源)
- Mistral‑7B‑Instruct(开源)
- GPT‑4‑Turbo(闭源,通过 API 访问)
- 提示工程 – 为每种目标语言设计了零样本提示模板,保持各语言之间的措辞完全一致,以避免偏差。
- 语言 – 选取了十二种语言,覆盖五个语系以及不同资源水平的范围(例如英语、西班牙语、法语、意大利语、葡萄牙语、阿拉伯语、土耳其语、普通话、日语、阿姆哈拉语、库尔德语和巴斯克语)。
- 人工基线 – 让母语者回答相同的问题,提供性能的上限参考。
- 分析 – 将准确率得分与元数据进行相关性分析,包括每种语言的词表大小、预训练数据量(根据公开语料库估计)以及语言距离度量(Levenshtein 距离、类型学特征)。
结果与发现
| 语言 | GPT‑4‑Turbo | LLaMA‑2‑13B‑Chat | Mistral‑7B‑Instruct | 人类基准 |
|---|---|---|---|---|
| 英语 | 78 % | 71 % | 69 % | 96 % |
| 西班牙语 | 82 % | 75 % | 73 % | 97 % |
| 法语 | 80 % | 73 % | 71 % | 96 % |
| 意大利语 | 79 % | 72 % | 70 % | 95 % |
| 葡萄牙语 | 78 % | 71 % | 69 % | 95 % |
| 阿拉伯语 | 65 % | 58 % | 56 % | 92 % |
| 土耳其语 | 63 % | 55 % | 53 % | 90 % |
| 普通话 | 60 % | 52 % | 50 % | 93 % |
| 日语 | 58 % | 51 % | 49 % | 94 % |
| 阿姆哈拉语 | 52 % | 44 % | 42 % | 88 % |
| 库尔德语 | 55 % | 47 % | 45 % | 89 % |
| 巴斯克语 | 57 % | 49 % | 47 % | 90 % |
关键要点
- 罗曼语系语言在所有三种模型中始终优于英语,其中西班牙语表现最佳。
- 性能与子词词表覆盖率高度相关:子词分词更丰富的语言(如西班牙语)准确率更高。
- 训练数据量重要,但关系并非线性;少量高质量数据(如多数罗曼语系语言)可以胜过更大但噪声更大的语料库。
- 与英语/西班牙语的语言距离解释了部分差异——与模型主要训练语言在形态或语序上相似的语言表现更好。
- 所有模型均落后于人类,这表明当前的多语言大模型仍远未达到真正的理解水平。
实际意义
- 产品本地化 – 依赖大型语言模型进行多语言聊天机器人或内容生成的公司不应假设所有语言都能达到英语水平的质量。罗曼语系市场可能已经可以接近生产使用,而阿拉伯语、普通话或阿姆哈拉语可能需要额外的后处理或人工在环的保障。
- 提示设计 – 考虑分词的提示(例如使用特定语言的分词器或添加显式分隔符)可以提升低资源语言的性能。
- 数据收集策略 – 投资于为代表性不足的语言构建精心策划的高质量语料库,相较于仅仅扩大原始网络数据,可获得更大的收益。
- 评估流水线 – 作者发布的基准和脚本可以集成到 LLM 驱动服务的 CI/CD 中,确保更新不会降低非英语地区的性能。
- 政策与公平 – 研究结果凸显了一种隐藏的偏见:“WEIRD” 数据的主导导致用户体验不均衡。致力于包容性 AI 的组织应优先考虑平衡的多语言训练集。
限制与未来工作
- 模型范围 – 仅研究了三种模型;更新的开源多语言大模型(例如 Gemma、LLaVA‑Multilingual)可能表现出不同的模式。
- 任务狭窄 – 理解基准聚焦于多项选择阅读理解;其他任务(代码生成、推理、对话)可能揭示出不同的语言特定优势或劣势。
- 训练数据估计 – 公开可得的各语言 token 数量统计是近似值,限制了数据规模分析的精确度。
- 人工基线变异性 – 人类参与者在教育背景或对测试形式的熟悉程度上并未统一,这可能会略微放大人类与模型之间的差距。
- 未来方向 作者提出的包括:将语言集合扩展到更多低资源和类型学极端语言(例如多形合成语言),测试检索增强的大模型,以及探索显式针对分词和语言距离的微调策略。
作者
- Natalia Moskvina
- Raquel Montero
- Masaya Yoshida
- Ferdy Hubers
- Paolo Morosi
- Walid Irhaymi
- Jin Yan
- Tamara Serrano
- Elena Pagliarini
- Fritz Günther
- Evelina Leivada
论文信息
- arXiv ID: 2602.20065v1
- 类别: cs.CL, cs.AI
- 出版日期: 2026年2月23日
- PDF: 下载 PDF