[Paper] 多语者还是众多？多语言LLM 对价值取向的多项选择题的回答

发布: 3天前 (2026年2月6日 GMT+8 01:44)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.05932v1

概述

本文提出了一个令人惊讶的具体问题：多语言大型语言模型（LLM）在不同语言提问时，是否会给出相同的价值取向答案？ 通过使用人工翻译、文化中立的多项选择题，对八种欧洲语言的数十个 LLM 进行探测，作者揭示了模型何时表现为真正的“多语者”（跨语言一致），以及何时表现为一组具有不同价值体系的单语模型。

关键贡献

MEVS 数据集 – 一个公开发布的 Multilingual European Value Survey，包含人工翻译、对齐的多项选择题，语言包括英语、法语、德语、西班牙语、意大利语、荷兰语、葡萄牙语和波兰语。
大规模多语言评估 – 在受控的 MEVS 子集上测试了 30 多种多语言 LLM（在规模、架构和对齐策略上各不相同）。
系统化提示工程 – 研究通过改变答案顺序、项目符号符号和尾随字符来隔离提示敏感性效应。
一致性度量 – 引入用于衡量 模型内部（同一模型、不同语言）和 模型间（不同模型、同一语言）在价值导向多项选择题上的一致性的量化指标。
实证洞见 – 表明经指令微调、规模更大的模型通常更一致，但在非平凡子集的问题上仍会出现语言特定的分歧。

方法论

语料库构建
- 从欧洲价值观调查中挑选了一组价值导向的问题。
- 雇佣专业译者制作八种语言的平行版本，避免自动翻译的噪声。
模型套件
- 包含开源大语言模型系列（如 LLaMA、Mistral、BLOOM）和商业 API（如 GPT‑4、Claude）。
- 覆盖三种规模：小型（≈1–3 B 参数）、中型（≈7–13 B）和大型（≥30 B）。
提示设计
- 每道选择题提供四个答案选项（A–D）。
- 对于每种语言，作者生成了多种提示变体：
  答案顺序：原始顺序 vs. 打乱顺序。
  符号类型：“A)”、 “①”、 “-”。
  尾部字符：句点、问号或无。
评估流程
- 对每个提示变体运行每个模型，记录所选选项。
- 计算模型内部一致性（同一模型，不同语言）和模型间一致性（不同模型，同一语言）。
- 进行统计分析，以识别一致性高和低的问题。

结果与发现

方面	数据说明
整体一致性	经过指令微调的更大模型在跨语言上实现约85%的模型内部一致性，而未微调或较小模型约为60%。
问题层面的差异	大约30%的选择题得到完美一致（所有模型在每种语言中都选相同答案）。其余问题的答案分布大致为55%/45%或甚至70%/30%。
语言特定漂移	即使是最一致的模型在某些项目上也会出现系统性偏移（例如“国家是否应干预经济？”），法语提示比英语提示更倾向于“政府角色”。
提示鲁棒性	打乱答案顺序或更换项目符号很少影响所选答案（影响<5%），但在句末添加或去掉句点可能导致边缘问题的回答翻转。
微调的影响	偏好微调模型（如RLHF对齐）表现出选择性的语言效应：在事实性项目上保持一致，但在规范性问题上出现分歧。

简而言之，多语言 LLM 并非完美的通晓者。它们的“价值观”可能会被提示语言微妙地影响，尤其是在文化负载的话题上。

实际意义

产品本地化 – 部署基于 LLM 的聊天机器人或决策支持工具的公司不应假设模型的伦理立场在不同地区保持不变。一个在英文环境下看似“中立”的政策，可能在德语或意大利语环境中被解读为不同的含义。
合规与审计 – 对 AI 偏见或价值对齐进行评估的监管机构需要多语言测试套件（如 MEVS），以在认证前捕捉语言特定的偏差。
提示工程 – 细微的标点选择会影响对敏感问题的回答；对每种语言统一提示模板可以提升可靠性。
模型选择 – 对于价值一致性重要的应用（如人力资源筛选、内容审核），选择更大、经过指令微调的模型可以降低但无法完全消除语言漂移风险。
微调策略 – 偏好微调的选择性效果表明，针对性的多语言对齐（例如跨语言的价值保留 RLHF）可能是业界有前景的研究方向。

限制与未来工作

语言范围 – 本研究聚焦于八种欧洲语言；对于具有不同文化框架的非印欧语系语言，结果可能有所不同。
问卷规模 – 仅使用了完整 MEVS 问卷的一个子集；更广泛的覆盖可能揭示额外的模式。
模型多样性 – 虽然测试了 30 多个模型，但快速演进的生态（例如新兴的多模态大语言模型）可能表现出不同的行为。
人类基准 – 论文未将模型差异与不同语言的人类受访者进行比较，因而留下了观察到的漂移是大于还是小于自然文化差异的疑问。
微调粒度 – 未来工作可以探索语言感知的 RLHF 流程，明确惩罚跨语言价值偏离。

结论：多语言大模型在跨语言保持一致信息方面已有进步，但仍未达到我们期望的“一模型通用”多语言全能状态。构建全球部署 AI 的开发者应在每种目标语言上进行测试，并在必要时进行微调，以确保行为的一致性和价值对齐。

作者

Léo Labat
Etienne Ollion
François Yvon

论文信息

arXiv ID: 2602.05932v1
Categories: cs.CL
Published: 2026年2月5日
PDF: 下载 PDF

[Paper] 多语者还是众多？多语言LLM 对价值取向的多项选择题的回答

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] DFlash：块扩散用于 Flash 投机解码

[Paper] 学习查询感知 Budget-Tier 路由用于 Runtime Agent Memory

[论文] 通过自蒸馏的多标记预测

[Paper] 大语言模型在 PTSD 严重程度估计中的系统评估：上下文知识与建模策略的作用