[Paper] 多语言大型语言模型并未以相同程度理解所有自然语言

发布: 3天前 (2026年2月24日 GMT+8 01:22)

9 分钟阅读

原文: arXiv

Source: arXiv - 2602.20065v1

请提供您希望翻译的具体文本内容（除代码块和 URL 之外），我将按照要求将其译成简体中文并保持原有的格式。

概述

一项最新研究探讨了三种流行的多语言大型语言模型（LLM）在实际理解多种自然语言方面的表现。通过在涵盖 12 种类型学上截然不同语言的语言理解基准上测试这些模型，作者发现模型的性能差异很大——而且令人惊讶的是，英语并不是任何模型的最强语言。

Source: …

任务选择 – 作者使用了一种语言理解基准测试，让模型根据短文回答多项选择题（例如，“哪句话最能继续故事？”）。该任务与语言无关，衡量的是纯粹的理解能力，而非生成能力。
模型套件 – 评估了三种广泛使用的多语言大模型：
- LLaMA‑2‑13B‑Chat（开源）
- Mistral‑7B‑Instruct（开源）
- GPT‑4‑Turbo（闭源，通过 API 访问）
提示工程 – 为每种目标语言设计了零样本提示模板，保持各语言之间的措辞完全一致，以避免偏差。
语言 – 选取了十二种语言，覆盖五个语系以及不同资源水平的范围（例如英语、西班牙语、法语、意大利语、葡萄牙语、阿拉伯语、土耳其语、普通话、日语、阿姆哈拉语、库尔德语和巴斯克语）。
人工基线 – 让母语者回答相同的问题，提供性能的上限参考。
分析 – 将准确率得分与元数据进行相关性分析，包括每种语言的词表大小、预训练数据量（根据公开语料库估计）以及语言距离度量（Levenshtein 距离、类型学特征）。

语言	GPT‑4‑Turbo	LLaMA‑2‑13B‑Chat	Mistral‑7B‑Instruct	人类基准
英语	78 %	71 %	69 %	96 %
西班牙语	82 %	75 %	73 %	97 %
法语	80 %	73 %	71 %	96 %
意大利语	79 %	72 %	70 %	95 %
葡萄牙语	78 %	71 %	69 %	95 %
阿拉伯语	65 %	58 %	56 %	92 %
土耳其语	63 %	55 %	53 %	90 %
普通话	60 %	52 %	50 %	93 %
日语	58 %	51 %	49 %	94 %
阿姆哈拉语	52 %	44 %	42 %	88 %
库尔德语	55 %	47 %	45 %	89 %
巴斯克语	57 %	49 %	47 %	90 %

关键要点

产品本地化 – 依赖大型语言模型进行多语言聊天机器人或内容生成的公司不应假设所有语言都能达到英语水平的质量。罗曼语系市场可能已经可以接近生产使用，而阿拉伯语、普通话或阿姆哈拉语可能需要额外的后处理或人工在环的保障。
提示设计 – 考虑分词的提示（例如使用特定语言的分词器或添加显式分隔符）可以提升低资源语言的性能。
数据收集策略 – 投资于为代表性不足的语言构建精心策划的高质量语料库，相较于仅仅扩大原始网络数据，可获得更大的收益。
评估流水线 – 作者发布的基准和脚本可以集成到 LLM 驱动服务的 CI/CD 中，确保更新不会降低非英语地区的性能。
政策与公平 – 研究结果凸显了一种隐藏的偏见：“WEIRD” 数据的主导导致用户体验不均衡。致力于包容性 AI 的组织应优先考虑平衡的多语言训练集。

模型范围 – 仅研究了三种模型；更新的开源多语言大模型（例如 Gemma、LLaVA‑Multilingual）可能表现出不同的模式。
任务狭窄 – 理解基准聚焦于多项选择阅读理解；其他任务（代码生成、推理、对话）可能揭示出不同的语言特定优势或劣势。
训练数据估计 – 公开可得的各语言 token 数量统计是近似值，限制了数据规模分析的精确度。
人工基线变异性 – 人类参与者在教育背景或对测试形式的熟悉程度上并未统一，这可能会略微放大人类与模型之间的差距。
未来方向 作者提出的包括：将语言集合扩展到更多低资源和类型学极端语言（例如多形合成语言），测试检索增强的大模型，以及探索显式针对分词和语言距离的微调策略。